Daily Papers - 2026-04-07


This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-07.

Browse the daily feed

1. AURA: Always-On Understanding and Real-Time Assistance via Video Streams

Read the paper

AURA 是一个端到端的流式视觉交互框架,通过集成上下文管理和优化部署,实现对视频流的持续处理,并提供实时问答和主动响应。

2. TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Read the paper

TriAttention 通过利用 RoPE 之前的 Q/K 向量集中性来解决 LLM 中的 KV 缓存内存瓶颈,从而提高关键重要性估计,并实现高效的长上下文生成。

3. MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Read the paper

在不改变架构的情况下,通过训练数据工程和优化策略可以提高文档解析性能,并在 OmniDocBench v1.6 上取得了最先进的结果。

4. SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

Read the paper

引入了一个新的基准和数据集,用于评估细粒度的空间编辑能力,并提出了一个在该类任务上表现卓越的模型。

5. ClawArena: Benchmarking AI Agents in Evolving Information Environments

Read the paper

ClawArena 通过各种专业场景和评估方法,评估 AI 代理在动态、多源信息环境中保持准确信念的能力。

6. LightThinker++: From Reasoning Compression to Memory Management

Read the paper

LightThinker 和 LightThinker++ 通过动态压缩和自适应内存管理,实现了高效的大型语言模型推理,显著降低了计算开销,同时在复杂任务中保持了性能。

7. SkillX: Automatically Constructing Skill Knowledge Bases for Agents

Read the paper

SkillX 是一个自动化框架,通过分层技能设计、迭代优化和探索性扩展,为 LLM 代理创建可重用的技能库,以提高其在不同环境下的泛化能力和效率。

8. Vero: An Open RL Recipe for General Visual Reasoning

Read the paper

Vero 是一个开放的视觉-语言模型家族,通过跨多样化任务的缩放强化学习数据,实现了最先进的视觉推理性能,证明了广泛的数据覆盖比孤立的任务特定模式更能驱动强大的 RL 扩展。

9. Less Detail, Better Answers: Degradation-Driven Prompting for VQA

Read the paper

通过策略性地降低图像保真度,使模型专注于基本结构信息而非分散注意力的细节,从而提高了视觉问答的性能。

10. FileGram: Grounding Agent Personalization in File-System Behavioral Traces

Read the paper

FileGram 是一个用于个性化 AI 代理的框架,它利用文件系统行为轨迹来增强内存系统和代理个性化,其特点是包含数据引擎、诊断基准以及由原子操作和内容更改构建的内存架构。