Daily Papers - 2026-04-16


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-16.

Browse the daily feed

1. Seedance 2.0: Advancing Video Generation for World Complexity

Read the paper

Seedance 2.0 是一个多模态音视频生成模型,支持文本、图像、音频和视频输入,在生成质量和速度上均有所提升。

2. GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Read the paper

GameWorld 提出了一个标准化的基准,用于评估视频游戏中的多模态大型语言模型代理,该基准包含各种游戏和经过验证的指标,可进行全面评估。

3. RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Read the paper

通过训练奖励模型生成多维度批评,可以改进视觉生成,同时增强强化学习奖励和测试时精炼循环,在减少训练数据需求的情况下实现了最先进的性能。

4. SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Read the paper

SpatialEvo 是一个用于 3D 空间推理的自演化框架,它利用确定性几何环境提供客观反馈,从而能够在不依赖模型共识的情况下实现高效训练。

5. OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Read the paper

OccuBench 提出了一个全面的基准,用于通过语言世界模型评估 AI 代理在 100 个专业领域中的表现,这些模型模拟真实世界环境并可控地注入故障。

6. Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Read the paper

记忆迁移学习通过利用统一的记忆池,实现了跨领域代码生成,其性能提升是通过高层抽象而非低层代码跟踪实现的。

7. From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Read the paper

PreRL 将奖励驱动的在线更新应用于预训练空间的边际分布,而 DSRL 使用 NSR-PreRL 在标准 RL 微调之前扩展推理范围。

8. Exploration and Exploitation Errors Are Measurable for Language Model Agents

Read the paper

设计了具有可编程探索-利用平衡的可控环境,用于评估语言模型代理在具身 AI 任务上的性能,揭示了不同的失败模式,并证明推理模型优于其他方法。

9. Target Policy Optimization

Read the paper

Target Policy Optimization 在强化学习中将策略更新决策与概率分配分离开来,在稀疏奖励场景下比标准策略梯度方法提高了性能。

10. Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Read the paper

Sema Code 提出了一个开放的 AI 编码框架,将核心代理引擎与客户端接口解耦,通过独立的 npm 库和模块化架构,实现了跨多种开发环境的共享推理能力。