Daily Papers - 2026-04-11
This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-11.
1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
监督微调和强化学习在论证任务中展现出条件性的跨领域泛化能力,其表现受到优化动态、数据质量和模型能力的影响,并且在论证能力提升和安全性下降之间存在不对称的结果。
2. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
SkillClaw通过聚合用户交互,在多用户LLM代理系统中实现集体技能演进,能够自主更新和改进整个生态系统中可重用的技能。
3. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
HY-Embodied-0.5是一个面向具身代理的基础模型家族,采用Transformer混合(Mixture-of-Transformers)架构和迭代后训练,以增强视觉感知和推理能力。
4. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models
NUMINA通过一个无需训练的框架,识别布局不一致并引导重生成,从而提升文本到视频扩散模型在数字方面的准确性,该框架通过注意力调制实现。
5. ClawBench: Can AI Agents Complete Everyday Online Tasks?
ClawBench提出了一个全面的评估框架,包含144个平台上的153个真实世界任务,用于测试AI代理自动化需要复杂多步流程和文档处理的日常在线活动的能力。
6. MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping
MegaStyle提出了一个可扩展的数据策管流程,利用大型生成模型创建高质量、风格一致的数据集,并提出了风格监督对比学习,以有效提取风格表示。
7. LPM 1.0: Video-based Character Performance Model
这是一个大规模多模态模型,用于实时对话式角色表演生成,它能在保持身份一致性的同时,实现交互式、无限长度的视频合成。
8. KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation
KnowU-Bench提出了一个面向个性化移动代理的综合基准,该基准在真实GUI环境中评估代理的真实偏好推理和主动辅助能力。
9. Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
大型语言模型代理正超越仅基于权重的修改,通过整合记忆、技能和协议等外化组件来增强其可靠性和协调性。
10. OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks
Gaussian GRPO通过使用分布匹配来确保梯度公平性和稳定的强化学习,解决了多模态模型训练中的挑战,从而在通用模型中实现了更好的感知-推理平衡。