Daily Papers - 2026-04-12

Apr 12, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-12.

1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

中文摘要： 在推理任务中，监督微调（SFT）和强化学习（RL）表现出条件性的跨领域泛化能力。这种能力受到优化动态、数据质量和模型能力的影响，并且在推理能力提升和安全性能下降之间存在不对称的结果。

中文摘要： SkillClaw 通过聚合用户交互，在多用户大型语言模型（LLM）代理系统中实现了集体技能演化。它能够自主更新和改进整个生态系统中可重用的技能。

中文摘要： HY-Embodied-0.5 是一个面向具身代理的基础模型系列。该系列模型采用 Transformer 混合（Mixture-of-Transformers）架构，并进行迭代后训练，以增强视觉感知和推理能力。

中文摘要： ClawBench 提供了一个全面的评估框架，包含了 144 个平台上的 153 项真实世界任务。该框架旨在测试 AI 代理自动执行日常在线活动的能力，这些活动通常需要复杂的多步工作流程和文档处理。

中文摘要： NUMINA 通过一个无需训练的框架，增强了文本到视频扩散模型在数字准确性方面的表现。该框架能够识别布局不一致性，并通过注意力调制引导重新生成。

中文摘要： MegaStyle 提出了一种可扩展的数据策展流程，利用大型生成模型创建高质量、风格一致的数据集。同时，它还提出了风格监督对比学习，以有效地提取风格表示。

中文摘要： LPM 1.0 是一个大规模多模态模型，用于实时生成对话式角色表演。该模型能够保持身份一致性，并支持交互式、无限长度的视频合成。

中文摘要： Gaussian GRPO 通过使用分布匹配来确保梯度公平性和稳定的强化学习，解决了多模态模型训练中的挑战。这使得通用模型在感知-推理平衡方面得到了提升。

中文摘要： DMax 引入了一种高效的扩散语言模型（dLLMs）的并行解码方法。该方法通过自精炼和统一的训练策略，减少了并行解码过程中的错误累积。

中文摘要： KnowU-Bench 是一个针对个性化移动代理的综合性基准测试。它在真实世界的图形用户界面（GUI）环境中，评估了代理的真实偏好推理和主动辅助能力。