Daily Papers - 2026-04-01


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-01.

Browse the daily feed

1. FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Read the paper

FIPO 通过使用折扣未来 KL 散度来改进信用分配和扩展推理链,从而增强了语言模型的强化学习能力,并在数学问题解决方面取得了更好的性能。

2. LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Read the paper

离散原生自回归框架通过新颖的视觉 Transformer 架构,将不同模态表示在共享的离散空间中,实现了统一的多模态处理。

3. Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

Read the paper

Lingshu-Cell 是一个掩码离散扩散模型,能够学习转录组状态分布,并实现对跨不同组织和物种的细胞扰动的条件模拟,为构建虚拟细胞模型提供支持。

4. Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Read the paper

Unify-Agent 集成了基于代理的建模与多模态理解,通过基于外部知识进行推理、搜索和生成,从而增强了图像合成能力。

5. GEMS: Agent-Native Multimodal Generation with Memory and Skills

Read the paper

GEMS 是一个原生代理的多模态生成框架,通过结构化的多代理优化、持久化记忆和领域特定技能,增强了模型在通用任务和下游任务中的能力。

6. VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Read the paper

VGGRPO 是一个潜在几何引导框架,通过潜在几何模型和潜在空间强化学习,结合相机运动和几何重投影奖励,增强了视频扩散模型的几何一致性。

7. CARLA-Air: Fly Drones Inside a CARLA World – A Unified Infrastructure for Air-Ground Embodied Intelligence

Read the paper

CARLA-Air 在统一的虚幻引擎框架内集成了高保真的驾驶和多旋翼飞行模拟,支持地面和空中联合代理建模,并提供照片级真实感环境和多模态感知能力。

8. CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Read the paper

CutClaw 是一个自主多代理框架,利用多模态语言模型将长视频素材自动编辑成节奏一致、叙事连贯的短视频,并实现音频和视觉元素的同步。

9. OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Read the paper

OptiMer 通过后验贝叶斯优化从单个数据集模型中提取的分布向量,实现训练过程与数据混合比例选择的分离,从而支持灵活的持续预训练。

10. Learn2Fold: Structured Origami Generation with World Model Planning

Read the paper

Learn2Fold 是一个神经符号框架,通过结合语言模型的语义提议和图结构世界模型的验证,能够根据文本生成物理上有效的折纸折叠序列。