Daily Papers - 2026-04-11

Apr 11, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-11.

1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

监督微调和强化学习在论证任务中展现出条件性的跨领域泛化能力，其表现受到优化动态、数据质量和模型能力的影响，并且在论证能力提升和安全性下降之间存在不对称的结果。

SkillClaw通过聚合用户交互，在多用户LLM代理系统中实现集体技能演进，能够自主更新和改进整个生态系统中可重用的技能。

HY-Embodied-0.5是一个面向具身代理的基础模型家族，采用Transformer混合（Mixture-of-Transformers）架构和迭代后训练，以增强视觉感知和推理能力。

NUMINA通过一个无需训练的框架，识别布局不一致并引导重生成，从而提升文本到视频扩散模型在数字方面的准确性，该框架通过注意力调制实现。

ClawBench提出了一个全面的评估框架，包含144个平台上的153个真实世界任务，用于测试AI代理自动化需要复杂多步流程和文档处理的日常在线活动的能力。

MegaStyle提出了一个可扩展的数据策管流程，利用大型生成模型创建高质量、风格一致的数据集，并提出了风格监督对比学习，以有效提取风格表示。

这是一个大规模多模态模型，用于实时对话式角色表演生成，它能在保持身份一致性的同时，实现交互式、无限长度的视频合成。

KnowU-Bench提出了一个面向个性化移动代理的综合基准，该基准在真实GUI环境中评估代理的真实偏好推理和主动辅助能力。

大型语言模型代理正超越仅基于权重的修改，通过整合记忆、技能和协议等外化组件来增强其可靠性和协调性。

Gaussian GRPO通过使用分布匹配来确保梯度公平性和稳定的强化学习，解决了多模态模型训练中的挑战，从而在通用模型中实现了更好的感知-推理平衡。