Daily Papers - 2026-04-11


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-11.

Browse the daily feed

1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Read the paper

监督微调和强化学习在论证任务中展现出条件性的跨领域泛化能力,其表现受到优化动态、数据质量和模型能力的影响,并且在论证能力提升和安全性下降之间存在不对称的结果。

2. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Read the paper

SkillClaw通过聚合用户交互,在多用户LLM代理系统中实现集体技能演进,能够自主更新和改进整个生态系统中可重用的技能。

3. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Read the paper

HY-Embodied-0.5是一个面向具身代理的基础模型家族,采用Transformer混合(Mixture-of-Transformers)架构和迭代后训练,以增强视觉感知和推理能力。

4. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Read the paper

NUMINA通过一个无需训练的框架,识别布局不一致并引导重生成,从而提升文本到视频扩散模型在数字方面的准确性,该框架通过注意力调制实现。

5. ClawBench: Can AI Agents Complete Everyday Online Tasks?

Read the paper

ClawBench提出了一个全面的评估框架,包含144个平台上的153个真实世界任务,用于测试AI代理自动化需要复杂多步流程和文档处理的日常在线活动的能力。

6. MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Read the paper

MegaStyle提出了一个可扩展的数据策管流程,利用大型生成模型创建高质量、风格一致的数据集,并提出了风格监督对比学习,以有效提取风格表示。

7. LPM 1.0: Video-based Character Performance Model

Read the paper

这是一个大规模多模态模型,用于实时对话式角色表演生成,它能在保持身份一致性的同时,实现交互式、无限长度的视频合成。

8. KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

Read the paper

KnowU-Bench提出了一个面向个性化移动代理的综合基准,该基准在真实GUI环境中评估代理的真实偏好推理和主动辅助能力。

9. Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

Read the paper

大型语言模型代理正超越仅基于权重的修改,通过整合记忆、技能和协议等外化组件来增强其可靠性和协调性。

10. OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Read the paper

Gaussian GRPO通过使用分布匹配来确保梯度公平性和稳定的强化学习,解决了多模态模型训练中的挑战,从而在通用模型中实现了更好的感知-推理平衡。