Daily Papers - 2026-04-15


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-15.

Browse the daily feed

1. ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Read the paper

ClawGUI 提出了一个开源框架,通过统一的强化学习、标准化的评估和跨平台部署能力,解决了 GUI Agent 开发中的关键挑战。

2. KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

Read the paper

KnowRL 是一个知识引导的强化学习框架,通过约束子集搜索优化紧凑、交互感知的引导子集,并解决剪枝交互悖论,从而提升语言模型的推理能力。

3. Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Read the paper

大型语言模型中的 On-Policy 蒸馏动态依赖于教师模型和学生模型之间兼容的思维模式,成功的蒸馏表现为在高概率 token 上的对齐,并且要求教师模型提供超越学生训练数据的新颖能力。

4. Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Read the paper

研究人员提出了自主 GUI Agent 的人性化能力,以避免被数字平台检测,并引入了一个基准和方法来平衡模仿能力与任务性能。

5. SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Read the paper

Sequence-Level PPO 通过将过程重构为上下文老虎机问题,并解耦价值函数以提高效率,解决了长链式思维推理中的不稳定性问题。

6. Toward Autonomous Long-Horizon Engineering for ML Research

Read the paper

AiScientist 通过结合分层编排和持久化状态管理,实现了 ML 研究工程的自主长视域,通过结构化协调和持久化的项目工件在基准任务上取得了卓越的性能。

7. BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Read the paper

大型语言模型的评估面临着僵化的词汇方法,这些方法将解决问题能力与格式合规性混淆。为此,BERT-as-a-Judge 被提出,用于对生成输出进行更鲁棒、可扩展的评估。

8. Lyra 2.0: Explorable Generative 3D Worlds

Read the paper

Lyra 2.0 通过持久化的视频生成实现了大规模 3D 场景创建,解决了长视域视频模型中的空间遗忘和时间漂移问题。

Read the paper

引入了一个名为 LMM-Searcher 的新颖长视域多模态深度搜索框架,该框架采用基于文件的视觉表示机制和渐进式视觉加载,以有效处理异构信息和高昂的 token 成本。

10. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Read the paper

Nemotron 3 Super 是一个拥有 1200 亿参数的混合 Mamba-Attention 专家模型,采用 LatentMoE 架构和 MTP 层在 NVFP4 中进行预训练,实现了加速推理,并比现有模型取得了更高的吞吐量。