Daily Papers - 2026-04-21
This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-21.
1. Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
研究人员通过集成强大的基于LLM的文本编码器,将MeanFlow生成从类别标签扩展到文本输入,通过增强的语义特征表示克服了少量步骤精炼的局限性。
2. OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
OneVL提出了一个统一的视觉-语言-动作框架,通过整合语言和视觉世界模型监督,改进了自动驾驶中的潜在思维链推理,从而实现更快、更准确的轨迹预测。
3. Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
Agent-World引入了一个自进化的训练框架,通过自主环境发现和跨多样化真实世界场景的持续学习,推动了通用智能体的通用智能发展。
4. OpenGame: Open Agentic Coding for Games
OpenGame是一个开源的、用于端到端网页游戏创建的智能体框架,它利用专门的代码模型和评估基准来克服交互式应用程序开发中的挑战。
5. MultiWorld: Scalable Multi-Agent Multi-View Video World Models
MultiWorld是一个用于多智能体多视角世界建模的统一框架,通过专门的条件处理和全局状态编码模块,在保持多视角一致性的同时实现了准确的多智能体控制。
6. EasyVideoR1: Easier RL for Video Understanding
EasyVideoR1提出了一个高效的视频理解强化学习框架,提高了训练吞吐量,支持多样化的视频任务,并实现了图像-视频联合训练,在多个基准测试上进行了全面评估。
7. GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
Group Fine-Tuning通过使用多样化的响应组和自适应权重边界来解决监督微调的局限性,从而提高了训练的稳定性和效率。
8. When Can LLMs Learn to Reason with Weak Supervision?
研究表明,在弱监督下,模型在推理任务中的泛化能力取决于奖励饱和动态和推理忠实度,而对显式推理过程的监督微调对于成功的适应至关重要。
9. WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
WebCompass通过多样化的输入模态和任务类型,利用模拟真实世界编码工作流的自动化评估方法,来评估代码语言模型在Web开发方面的能力。
10. ClawEnvKit: Automatic Environment Generation for Claw-Like Agents
一个自动化流程根据自然语言描述为爪状智能体生成多样化、经过验证的环境,从而能够构建大规模基准和进行持续评估。