Daily Papers - 2026-04-07

Apr 7, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-07.

1. AURA: Always-On Understanding and Real-Time Assistance via Video Streams

AURA 是一个端到端的流式视觉交互框架，通过集成上下文管理和优化部署，实现对视频流的持续处理，并提供实时问答和主动响应。

TriAttention 通过利用 RoPE 之前的 Q/K 向量集中性来解决 LLM 中的 KV 缓存内存瓶颈，从而提高关键重要性估计，并实现高效的长上下文生成。

在不改变架构的情况下，通过训练数据工程和优化策略可以提高文档解析性能，并在 OmniDocBench v1.6 上取得了最先进的结果。

引入了一个新的基准和数据集，用于评估细粒度的空间编辑能力，并提出了一个在该类任务上表现卓越的模型。

ClawArena 通过各种专业场景和评估方法，评估 AI 代理在动态、多源信息环境中保持准确信念的能力。

LightThinker 和 LightThinker++ 通过动态压缩和自适应内存管理，实现了高效的大型语言模型推理，显著降低了计算开销，同时在复杂任务中保持了性能。

SkillX 是一个自动化框架，通过分层技能设计、迭代优化和探索性扩展，为 LLM 代理创建可重用的技能库，以提高其在不同环境下的泛化能力和效率。

Vero 是一个开放的视觉-语言模型家族，通过跨多样化任务的缩放强化学习数据，实现了最先进的视觉推理性能，证明了广泛的数据覆盖比孤立的任务特定模式更能驱动强大的 RL 扩展。

通过策略性地降低图像保真度，使模型专注于基本结构信息而非分散注意力的细节，从而提高了视觉问答的性能。

FileGram 是一个用于个性化 AI 代理的框架，它利用文件系统行为轨迹来增强内存系统和代理个性化，其特点是包含数据引擎、诊断基准以及由原子操作和内容更改构建的内存架构。