Daily Papers - 2026-04-18


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-18.

Browse the daily feed

1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Read the paper

HY-World 2.0 是一个多模态世界模型框架,它利用专门的模块(用于全景图生成、轨迹规划、世界扩展和组合)从各种输入生成高保真度的 3D 高斯溅射场景,并配备增强的渲染平台以实现交互式 3D 探索。

2. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

Read the paper

一个统一的生成器-判别器框架,用于自动驾驶运动规划,通过基于扩散的轨迹生成和强化学习优化来提高稳定性和性能。

3. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Read the paper

DR$^{3}$-Eval 是一个用于评估深度研究智能体进行多模态、多文件报告生成的基准。它包含对网络环境的真实模拟和一个全面的评估框架。

4. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Read the paper

师生协作数据合成框架解决了合成数据中的风格差异问题,以提高模型微调的性能。

5. ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

Read the paper

ASGuard(Activation-Scaling Guard)通过机制电路分析和定向微调,识别并重新校准易受基于张力(tense-based)越狱攻击的特定注意力头,从而缓解大型语言模型中脆弱的拒绝行为。

6. GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

Read the paper

GlobalSplat 引入了一个全局场景表示框架,通过全局场景令牌实现了紧凑、一致的 3D 高斯溅射,同时降低了计算开销并提高了推理速度。

7. HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Read the paper

HiVLA 提出了一个以视觉为中心的分层视觉-语言-动作框架,它使用具有级联交叉注意力的扩散Transformer动作专家来解耦语义规划和运动控制,从而提高了机器人操控能力。

8. Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems

Read the paper

该研究分析了 Claude Code 的架构,识别了五种驱动人类价值观,并追溯了它们通过十三个设计原则到具体的实现选择,包括一个核心的 while 循环架构以及支持安全、上下文管理和可扩展性的系统。

9. UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

Read the paper

UniDoc-RL 引入了一个用于 LVLMs 的强化学习框架,通过分层决策和密集的多奖励监督,联合优化检索、重排序、视觉感知和推理。

10. Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

Read the paper

由于体积庞大,视觉-语言模型面临部署挑战,但知识蒸馏可以通过一种新颖的视觉开关框架来提高效率并保持性能,该框架增强了多模态知识的迁移。