Daily Papers - 2026-04-12


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-12.

Browse the daily feed

1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Read the paper

中文摘要: 在推理任务中,监督微调(SFT)和强化学习(RL)表现出条件性的跨领域泛化能力。这种能力受到优化动态、数据质量和模型能力的影响,并且在推理能力提升和安全性能下降之间存在不对称的结果。

2. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Read the paper

中文摘要: SkillClaw 通过聚合用户交互,在多用户大型语言模型(LLM)代理系统中实现了集体技能演化。它能够自主更新和改进整个生态系统中可重用的技能。

3. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Read the paper

中文摘要: HY-Embodied-0.5 是一个面向具身代理的基础模型系列。该系列模型采用 Transformer 混合(Mixture-of-Transformers)架构,并进行迭代后训练,以增强视觉感知和推理能力。

4. ClawBench: Can AI Agents Complete Everyday Online Tasks?

Read the paper

中文摘要: ClawBench 提供了一个全面的评估框架,包含了 144 个平台上的 153 项真实世界任务。该框架旨在测试 AI 代理自动执行日常在线活动的能力,这些活动通常需要复杂的多步工作流程和文档处理。

5. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Read the paper

中文摘要: NUMINA 通过一个无需训练的框架,增强了文本到视频扩散模型在数字准确性方面的表现。该框架能够识别布局不一致性,并通过注意力调制引导重新生成。

6. MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Read the paper

中文摘要: MegaStyle 提出了一种可扩展的数据策展流程,利用大型生成模型创建高质量、风格一致的数据集。同时,它还提出了风格监督对比学习,以有效地提取风格表示。

7. LPM 1.0: Video-based Character Performance Model

Read the paper

中文摘要: LPM 1.0 是一个大规模多模态模型,用于实时生成对话式角色表演。该模型能够保持身份一致性,并支持交互式、无限长度的视频合成。

8. OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Read the paper

中文摘要: Gaussian GRPO 通过使用分布匹配来确保梯度公平性和稳定的强化学习,解决了多模态模型训练中的挑战。这使得通用模型在感知-推理平衡方面得到了提升。

9. DMax: Aggressive Parallel Decoding for dLLMs

Read the paper

中文摘要: DMax 引入了一种高效的扩散语言模型(dLLMs)的并行解码方法。该方法通过自精炼和统一的训练策略,减少了并行解码过程中的错误累积。

10. KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

Read the paper

中文摘要: KnowU-Bench 是一个针对个性化移动代理的综合性基准测试。它在真实世界的图形用户界面(GUI)环境中,评估了代理的真实偏好推理和主动辅助能力。