Daily Papers - 2026-04-08

Apr 8, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-08.

1. Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Video-MME-v2 提出了一个全面的视频理解模型基准测试，通过渐进式层级和基于组的评估来衡量模型的鲁棒性和忠实度。

研究人员引入了 PTE（Prefill Token Equivalents），一种硬件感知的度量标准，用于衡量工具集成推理场景下的效率。该度量标准通过考虑 KV-Cache 的低效率和长工具响应，比传统的 token 计数更能准确地反映实际推理延迟。

文章提出了一种新的范式，用于训练智能体搜索的检索模型。该范式直接从智能体交互数据中挖掘多步轨迹的监督信号，并通过加权优化来整合相关性强度，从而进行直接训练。

Vanast 是一个统一的框架，通过将基于图像的虚拟试穿和姿态驱动的动画结合在一个单一流程中，生成服装转移的人类动画视频。该框架通过三元组监督和双模块架构解决了身份漂移和服装失真等问题。

Claw-Eval 通过多模态的全面评估，结合轨迹感知评分和安全评估，解决了现有智能体基准测试的局限性。

ThinkTwice 是一个两阶段框架，利用 Group Relative Policy Optimization 联合优化大型语言模型进行推理和自我完善，并在数学推理基准测试上展现出性能提升。

研究人员开发了 ACES 方法，通过留一法评估和 AUC 一致性评分来对测试用例进行排名，以区分正确和不正确的代码，从而解决了从 LLM 生成的代码输出中选择正确代码候选的挑战。

FactReview 是一个基于证据的机器学习同行评审系统，通过声明提取、文献定位和基于执行的验证来分析论文声明，从而提供更可靠的评审评估。

该方法提出了一种自适应多模态嵌入框架，通过潜在变量和强化学习选择性地应用推理，以提高在基准任务上的效率和性能。

Paper Circle 是一个开源的多智能体系统，通过集成检索和知识图谱构建能力，自动化科学文献的发现和分析。