Daily Papers - 2026-04-16
This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-16.
1. Seedance 2.0: Advancing Video Generation for World Complexity
Seedance 2.0 是一个多模态音视频生成模型,支持文本、图像、音频和视频输入,在生成质量和速度上均有所提升。
2. GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
GameWorld 提出了一个标准化的基准,用于评估视频游戏中的多模态大型语言模型代理,该基准包含各种游戏和经过验证的指标,可进行全面评估。
3. RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
通过训练奖励模型生成多维度批评,可以改进视觉生成,同时增强强化学习奖励和测试时精炼循环,在减少训练数据需求的情况下实现了最先进的性能。
4. SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
SpatialEvo 是一个用于 3D 空间推理的自演化框架,它利用确定性几何环境提供客观反馈,从而能够在不依赖模型共识的情况下实现高效训练。
5. OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models
OccuBench 提出了一个全面的基准,用于通过语言世界模型评估 AI 代理在 100 个专业领域中的表现,这些模型模拟真实世界环境并可控地注入故障。
6. Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents
记忆迁移学习通过利用统一的记忆池,实现了跨领域代码生成,其性能提升是通过高层抽象而非低层代码跟踪实现的。
7. From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space
PreRL 将奖励驱动的在线更新应用于预训练空间的边际分布,而 DSRL 使用 NSR-PreRL 在标准 RL 微调之前扩展推理范围。
8. Exploration and Exploitation Errors Are Measurable for Language Model Agents
设计了具有可编程探索-利用平衡的可控环境,用于评估语言模型代理在具身 AI 任务上的性能,揭示了不同的失败模式,并证明推理模型优于其他方法。
9. Target Policy Optimization
Target Policy Optimization 在强化学习中将策略更新决策与概率分配分离开来,在稀疏奖励场景下比标准策略梯度方法提高了性能。
10. Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure
Sema Code 提出了一个开放的 AI 编码框架,将核心代理引擎与客户端接口解耦,通过独立的 npm 库和模块化架构,实现了跨多种开发环境的共享推理能力。