Daily Papers - 2026-04-02

Apr 2, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-02.

1. MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

MiroEval 解决了现有深度研究系统基准的局限性，引入了一个全面的评估框架，该框架在真实用户任务中评估自适应合成、代理事实核查和以过程为中心的审计。

使用程序化接口和基础模型的简单基于终端的编码代理可以有效地执行与复杂工具增强代理相当甚至更好的企业任务。

QuitoBench 通过引入一个具有八个时间序列预测（TSF）模式的、 régimen 均衡的数据集，解决了大规模时间序列基准的缺乏问题。研究表明，基础模型在长上下文时间序列预测方面优于深度学习模型，并且增加数据量比增加模型规模更能带来显著的性能提升。

ViGoR 基准通过引入一个全面的框架来评估跨多种模态和认知维度的视觉生成推理能力，从而解决了当前人工智能生成内容（AIGC）评估的局限性。

Universal YOCO 将 YOCO 解码器-解码器架构与递归计算相结合，在大型语言模型中实现了高效推理和改进的扩展行为。

PerceptionComp 是一个用于复杂、长时域视频推理的基准，该推理需要跨越各种感知子任务的多段时序视觉证据和组合逻辑。

HippoCamp 是一个多模态文件管理基准，用于评估用户中心环境中的代理能力。研究表明，在密集型个人文件系统中，代理在长时域检索和跨模态推理方面存在显著的性能差距。

GaussianGPT 使用基于 Transformer 的自回归方法和 3D 旋转位置嵌入，通过预测高斯基元来生成 3D 场景，在可控性和灵活性方面优于扩散方法。

Vision2Web 为视觉网站开发任务提供了一个全面的基准，并评估了编码代理在静态 UI 生成、交互式前端复现和不同复杂度的全栈开发方面的能力。

简单的自蒸馏通过在模型生成的样本上进行微调，能够显著提升大型语言模型的代码生成能力，有效解决了解码过程中的精度-探索权衡问题。