Daily Papers - 2026-04-04

Apr 4, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-04.

Browse the daily feed

1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

Read the paper

DataFlex 是一个统一的、以数据为中心的动态训练框架，用于训练大型语言模型。该框架支持样本选择、领域混合调整和样本重加权，同时保持与标准训练流程的兼容性，并支持高效的大规模部署。

2. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Read the paper

潜在空间正成为基于语言的模型的基础计算基石，通过连续表示克服了语言冗余和序列低效问题，相比显式的 token 级别方法具有优势。

3. Generative World Renderer

Read the paper

引入了一个大规模的 AAA 游戏动态数据集，用于改进生成式逆向和前向渲染。该数据集包含高分辨率同步的 RGB 和 G-buffer 数据，并提出了一种新颖的基于 VLM 的评估方法，该方法与人类判断高度相关。

4. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Read the paper

SKILL0 允许 LLM 智能体在训练过程中内化技能，通过动态课程实现零样本自主行为，从而降低上下文开销并提高任务性能。

5. Steerable Visual Representations

Read the paper

可控视觉表示通过早期融合文本和视觉特征，实现了语言引导下对特定图像元素的关注，同时保持了表示质量。

6. EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Read the paper

EgoSim 是一个闭环的、以自我为中心的（egocentric）世界模拟器，可生成空间一致的交互视频，并持续更新底层 3D 场景状态以进行连续模拟。现有模拟器要么缺乏显式的 3D 依据导致视角变化时结构漂移，要么将场景视为静态，无法在多阶段交互中更新世界状态。EgoSim 通过将 3D 场景建模为可更新的世界状态来解决这些局限性。我们通过一个几何-动作感知观察模拟模型生成具身交互，并通过一个交互感知状态更新模块确保空间一致性。为克服获取密集对齐的场景-交互训练对的严峻数据瓶颈，我们设计了一个可扩展的流水线，从野外大规模单目 egocentric 视频中提取静态点云、相机轨迹和具身动作。我们进一步引入了 EgoCap，一个捕捉系统…

7. CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Read the paper

自主多智能体进化框架通过持久记忆、异步执行和协作解决问题，实现了开放式发现，并在数学和优化任务上取得了卓越的性能。

Read the paper

LatentUM 是一个统一的模型，将所有模态表示在共享的语义潜在空间中，从而无需像素空间中介即可实现高效的跨模态推理和生成。

9. NearID: Identity Representation Learning via Near-identity Distractors

Read the paper

研究人员开发了一个新颖的框架，利用近乎身份的干扰项（Near-identity distractors）来改进以身份为中心的视觉任务。该框架创建了一个数据集和评估协议，能够更好地将身份与背景上下文分离开来，从而获得更可靠的表示和度量。

10. Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Read the paper

一个自主研究流水线发现了 Omni-SimpleMem，这是一个统一的多模态记忆框架，通过自动化的架构修改、错误修复和提示工程，而不是传统的超参数调优，显著提高了终身 AI 智能体的性能。

@xixi003

Daily Papers - 2026-04-04

1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

2. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

3. Generative World Renderer

4. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

5. Steerable Visual Representations

6. EgoSim: Egocentric World Simulator for Embodied Interaction Generation

7. CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

8. LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

9. NearID: Identity Representation Learning via Near-identity Distractors

10. Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory