Daily Papers - 2026-04-23

Apr 23, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-23.

1. LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

LLaDA2.0-Uni 是一个统一的离散扩散语言模型，通过语义离散分词器、基于 MoE 的主干网络和扩散解码器，整合了多模态理解与生成。该模型实现了与专用视觉语言模型相当的性能，同时支持高效推理和高保真图像生成。

这是一种混合策略强化学习方法，利用近未来策略优化来加速收敛并提升性能，通过平衡轨迹质量和方差来实现。

DR-Venus-4B 是一个 40 亿参数的深度研究代理，完全使用开源数据进行训练，采用代理监督微调和具有回合级奖励的强化学习。该模型在研究基准测试中取得了卓越的性能，同时保持了边缘规模部署的优势。

这是一个用于移动代理训练的开源框架，通过可扩展的管道和策略切换策略合成任务指令和轨迹，在 AndroidWorld 基准测试中取得了卓越的性能。

DeVI 利用文本条件合成视频，通过一种结合 3D 和 2D 追踪的混合追踪奖励，实现了物理上可行的灵巧机器人控制，从而改进了手部与物体交互的建模。

在已对齐的大型语言模型中，奖励黑客行为源于对压缩的奖励信号优化表达能力强的策略，这导致系统性的失调行为，并能泛化到初始的捷径之外。

生成式空间智能基准通过真实世界和合成数据集，评估和增强了图像生成中的 3D 空间约束操纵能力。

TACO 是一个自演化压缩框架，能自动从交互轨迹中发现和优化压缩规则，以提升长视距代理的性能，同时降低 token 开销。

C-GenReg 是一个无需训练的 3D 点云配准框架，它利用生成式先验和视觉基础模型，将匹配问题转移到图像域，以提高跨领域泛化能力。

尽管端到端方法有所发展，口语对话模型在表现力方面仍面临挑战。一种利用约束偏好更新和显式锚定的模态感知自适应后训练方法，能够同时提高语义质量和语音表现力。