Daily Papers - 2026-04-17
This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-17.
1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
HY-World 2.0 是一个多模态世界模型框架,它利用专门的模块(包括全景图生成、轨迹规划、世界扩展和组合)从多样化输入中生成高保真度的3D高斯溅射场景,并配备一个增强的渲染平台,用于交互式3D探索。
2. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
一个统一的生成器-判别器框架,用于自动驾驶运动规划,通过基于扩散的轨迹生成和强化学习优化来提高稳定性和性能。
3. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
DR$^{3}$-Eval 是一个用于评估深度研究代理的多模态、多文件报告生成基准,该基准包含对网络环境的真实模拟以及一个全面的评估框架。
4. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
教师-学生协作数据合成框架解决了合成数据中的风格分歧问题,以提高模型微调性能。
5. HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
HiVLA提出了一个层级化的视觉-语言-动作框架,通过使用具有级联交叉注意力的扩散 Transformer 动作专家,将语义规划与运动控制解耦,从而改进了机器人操作。
6. ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack
ASGuard(激活缩放卫士)通过机制电路分析和定向微调,识别并重新校准易受基于张力的越狱攻击影响的特定注意力头,从而缓解大型语言模型中脆弱的拒绝行为。
7. GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
GlobalSplat 引入了一个全局场景表示框架,实现了紧凑、一致的3D高斯溅射,同时降低了计算开销并提高了推理速度。
8. UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
UniDoc-RL 引入了一个用于 LVLM 的强化学习框架,该框架通过层级化决策制定和密集多奖励监督,联合优化检索、重排序、视觉感知和推理。
9. Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
视觉-语言模型由于其庞大的规模面临部署挑战,但知识蒸馏可以通过一种新颖的视觉-开关框架来提高效率并保持性能,该框架增强了多模态知识迁移。
10. TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification
TRACER 是一个开源系统,它利用生产轨迹来训练 LLM 分类的机器学习代理,仅当与原始模型的一致性超过指定阈值时才激活它们,同时提供对处理边界的可解释性。