Daily Papers - 2026-04-08


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-08.

Browse the daily feed

1. Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Read the paper

Video-MME-v2 提出了一个全面的视频理解模型基准测试,通过渐进式层级和基于组的评估来衡量模型的鲁棒性和忠实度。

2. Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

Read the paper

研究人员引入了 PTE(Prefill Token Equivalents),一种硬件感知的度量标准,用于衡量工具集成推理场景下的效率。该度量标准通过考虑 KV-Cache 的低效率和长工具响应,比传统的 token 计数更能准确地反映实际推理延迟。

3. Learning to Retrieve from Agent Trajectories

Read the paper

文章提出了一种新的范式,用于训练智能体搜索的检索模型。该范式直接从智能体交互数据中挖掘多步轨迹的监督信号,并通过加权优化来整合相关性强度,从而进行直接训练。

4. Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

Read the paper

Vanast 是一个统一的框架,通过将基于图像的虚拟试穿和姿态驱动的动画结合在一个单一流程中,生成服装转移的人类动画视频。该框架通过三元组监督和双模块架构解决了身份漂移和服装失真等问题。

5. Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Read the paper

Claw-Eval 通过多模态的全面评估,结合轨迹感知评分和安全评估,解决了现有智能体基准测试的局限性。

6. ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Read the paper

ThinkTwice 是一个两阶段框架,利用 Group Relative Policy Optimization 联合优化大型语言模型进行推理和自我完善,并在数学推理基准测试上展现出性能提升。

7. ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Read the paper

研究人员开发了 ACES 方法,通过留一法评估和 AUC 一致性评分来对测试用例进行排名,以区分正确和不正确的代码,从而解决了从 LLM 生成的代码输出中选择正确代码候选的挑战。

8. FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

Read the paper

FactReview 是一个基于证据的机器学习同行评审系统,通过声明提取、文献定位和基于执行的验证来分析论文声明,从而提供更可靠的评审评估。

9. MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

Read the paper

该方法提出了一种自适应多模态嵌入框架,通过潜在变量和强化学习选择性地应用推理,以提高在基准任务上的效率和性能。

10. Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

Read the paper

Paper Circle 是一个开源的多智能体系统,通过集成检索和知识图谱构建能力,自动化科学文献的发现和分析。