Daily Papers - 2026-04-03

Apr 3, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-03.

Browse the daily feed

1. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Read the paper

SKILL0 使 LLM 智能体能够在训练过程中内化技能，通过一个动态课程实现零样本自主行为，该课程能减少上下文开销同时提高任务性能。

2. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Read the paper

DataFlex 是一个统一的、面向数据中心的动态大型语言模型训练框架，支持样本选择、领域混合调整和样本重加权，同时保持与标准训练工作流程的兼容性，并实现高效的大规模部署。

3. Generative World Renderer

Read the paper

介绍了一个源自 AAA 游戏的大规模动态数据集，用于改进生成式逆向和前向渲染，该数据集包含高分辨率同步的 RGB 和 G-buffer 数据，以及一种新颖的基于 VLM 的评估方法，该方法与人类判断高度相关。

4. Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Read the paper

一个自主研究流水线发现了 Omni-SimpleMem，这是一个统一的多模态记忆框架，通过自动化的架构修改、错误修复和提示工程，而非传统的超参数调优，显著提高了终身 AI 智能体的性能。

5. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Read the paper

潜在空间正成为语言模型的基础计算基底，通过连续表示克服了显式 token 级别方法的局限性，缓解了语言冗余和序列效率低下等问题。

6. EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Read the paper

我们介绍了 EgoSim，一个闭环的以自我为中心的（egocentric）世界模拟器，它可以生成空间一致的交互视频，并持续更新底层的 3D 场景状态以进行连续模拟。现有的以自我为中心的模拟器要么缺乏明确的 3D 基础，导致在视角变化下出现结构漂移，要么将场景视为静态，无法在多阶段交互中更新世界状态。EgoSim 通过将 3D 场景建模为可更新的世界状态来解决这两个限制。我们通过一个几何-动作感知观察模拟模型生成具身交互，并通过一个交互感知状态更新模块确保空间一致性。为了克服由于难以获取密集对齐的场景-交互训练对而带来的关键数据瓶颈，我们设计了一个可扩展的流水线，从野外的大规模单目以自我为中心的视频中提取静态点云、相机轨迹和具身动作。我们进一步引入了 EgoCap，一个捕获系统……

7. UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Read the paper

UniDriveVLA 是一个统一的自动驾驶视觉-语言-动作模型，通过一个具有专家协调和渐进式训练的混合 Transformer 架构，将空间感知和语义推理解耦。

8. VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Read the paper

VideoZeroBench 提供了一个全面的长视频问答基准，具有严格的时空证据验证，揭示了当前模型在基于视频的理解能力方面存在的显著差距。

9. FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

Read the paper

FlowSlider 通过在 Rectified Flow 中将更新分解为保真度和方向控制（fidelity and steering）组件，实现了具有滑块式控制的连续图像编辑，在无需额外训练的情况下提供了稳定的强度控制。

10. GPA: Learning GUI Process Automation from Demonstrations

Read the paper

GPA（GUI Process Automation）提供了一种稳健、确定性且隐私保护的基于视觉的机器人流程自动化方法，其执行速度比当前基于视觉-语言模型的方法更快。

@xixi003

Daily Papers - 2026-04-03

1. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

2. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

3. Generative World Renderer

4. Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

5. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

6. EgoSim: Egocentric World Simulator for Embodied Interaction Generation

7. UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

8. VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

9. FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

10. GPA: Learning GUI Process Automation from Demonstrations