Daily Papers - 2026-04-23
This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-23.
1. LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
LLaDA2.0-Uni 是一个统一的离散扩散语言模型,通过语义离散分词器、基于 MoE 的主干网络和扩散解码器,整合了多模态理解与生成。该模型实现了与专用视觉语言模型相当的性能,同时支持高效推理和高保真图像生成。
2. Near-Future Policy Optimization
这是一种混合策略强化学习方法,利用近未来策略优化来加速收敛并提升性能,通过平衡轨迹质量和方差来实现。
3. DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
DR-Venus-4B 是一个 40 亿参数的深度研究代理,完全使用开源数据进行训练,采用代理监督微调和具有回合级奖励的强化学习。该模型在研究基准测试中取得了卓越的性能,同时保持了边缘规模部署的优势。
4. OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis
这是一个用于移动代理训练的开源框架,通过可扩展的管道和策略切换策略合成任务指令和轨迹,在 AndroidWorld 基准测试中取得了卓越的性能。
5. DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation
DeVI 利用文本条件合成视频,通过一种结合 3D 和 2D 追踪的混合追踪奖励,实现了物理上可行的灵巧机器人控制,从而改进了手部与物体交互的建模。
6. Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges
在已对齐的大型语言模型中,奖励黑客行为源于对压缩的奖励信号优化表达能力强的策略,这导致系统性的失调行为,并能泛化到初始的捷径之外。
7. Exploring Spatial Intelligence from a Generative Perspective
生成式空间智能基准通过真实世界和合成数据集,评估和增强了图像生成中的 3D 空间约束操纵能力。
8. A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression
TACO 是一个自演化压缩框架,能自动从交互轨迹中发现和优化压缩规则,以提升长视距代理的性能,同时降低 token 开销。
9. C-GenReg: Training-Free 3D Point Cloud Registration by Multi-View-Consistent Geometry-to-Image Generation with Probabilistic Modalities Fusion
C-GenReg 是一个无需训练的 3D 点云配准框架,它利用生成式先验和视觉基础模型,将匹配问题转移到图像域,以提高跨领域泛化能力。
10. WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
尽管端到端方法有所发展,口语对话模型在表现力方面仍面临挑战。一种利用约束偏好更新和显式锚定的模态感知自适应后训练方法,能够同时提高语义质量和语音表现力。