Daily Papers - 2026-04-10


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-10.

Browse the daily feed

1. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Read the paper

SkillClaw 旨在通过聚合用户交互来自主更新和改进生态系统中可重用的技能,从而实现多用户 LLM 智能体系统中的集体技能进化。

2. Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

Read the paper

大型语言模型(LLM)智能体正超越基于权重的修改,开始整合外部化组件,如记忆、技能和协议,以增强可靠性和协调性。

3. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Read the paper

HY-Embodied-0.5 是一个面向具身智能体的基础模型系列,采用 Transformer 混合(Mixture-of-Transformers)架构和迭代后训练技术,以增强视觉感知和推理能力。

4. KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

Read the paper

KnowU-Bench 提供了一个全面的个性化移动智能体基准测试,用于评估在真实 GUI 环境中用户真实偏好的推断能力和主动协助能力。

5. LPM 1.0: Video-based Character Performance Model

Read the paper

LPM 1.0 是一个大规模多模态模型,用于实时对话式角色表演生成,它在保持身份一致性的同时,能够实现交互式、无限长度的视频合成。

6. OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Read the paper

OpenSpatial 是一个开源的数据引擎,用于处理三维边界框的空间推理任务,创建了一个大规模数据集,并在空间感知基准测试中取得了最先进的性能。

7. MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Read the paper

MegaStyle 提供了一个可扩展的数据策展流程,利用大型生成模型创建高质量、风格一致的数据集,并提出了一种风格监督对比学习方法,以有效提取风格表示。

8. Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

Read the paper

Graph of Skills (GoS) 通过构建可执行的技能图谱,并利用混合检索方法检索依赖感知的技能包,从而实现了大规模技能库的高效推理,显著提高了奖励性能并降低了 token 使用量。

9. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Read the paper

NUMINA 通过一个无需训练的框架,识别布局不一致并引导注意力调制进行再生,从而增强了文本到视频扩散模型在数字准确性方面的表现。

10. Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Read the paper

具有元认知缺陷的智能体在工具使用决策方面存在困难,导致效率低下。新的框架 HDPO 通过解耦的准确性和效率优化通道来解决这一问题。