Daily Papers - 2026-04-06

Apr 6, 2026

This daily digest collects the top 7 papers from the Hugging Face papers feed for 2026-04-06.

1. Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

一项新的基准测试通过验证工具使用和过程效率而非仅仅最终答案来评估多模态代理能力，揭示了在现实世界多模态问题解决中存在的重大挑战。

一个使用近期视频帧的简单滑动窗口方法，其性能优于复杂的基于内存的流式视频理解方法，揭示了实时感知与长期记忆能力之间的权衡。

RLSD 将强化学习与可验证奖励和自蒸馏相结合，实现了具有细粒度更新的稳定训练，并从环境反馈中获得可靠的策略方向。

XpertBench 提供了一个全面的基准测试，使用专家精心策划的任务和一种名为 ShotJudge 的新型基于 LLM 的评估方法，来评估大型语言模型在专业领域的能力。

计算机使用代理由于能够执行单独无害但集体造成危害的动作序列，因此带来了独特的安全挑战，这使得 AgentHazard 这样的基准测试对其进行评估变得必要。

工业软件开发缺乏关于硬件约束的专家推理痕迹，因此训练了一个模型，该模型基于错误驱动的推理链和领域特定的执行痕迹，以生成高质量的代码推理和性能。

一个视觉-语言模型融合框架结合了对比式和自监督式视觉编码器，使用熵引导的聚合和 RoPE 增强的注意力机制，以提高视觉理解和视觉基础任务的性能。