Daily Papers - 2026-04-13

Apr 13, 2026

This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-13.

1. FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

FORGE 引入了一个高质量的多模态制造数据集，该数据集具有细粒度的领域语义，用于评估多模态大型语言模型（MLLMs）在真实世界任务中的表现。研究表明，限制性能的是领域特定知识而非视觉基础，并通过在结构化标注上进行监督微调可以显著提高准确性。

提出了一种名为 RefineAnything 的多模态扩散模型，用于区域特定的图像精炼。该模型在保留背景的同时增强局部细节，采用了聚焦-精炼策略和边界感知损失函数。

Matrix-Game 3.0 通过记忆增强的扩散模型增强了交互式视频生成，实现了具有长期时间一致性的实时 720p 视频合成。

一个统一的3D目标检测框架搭配大规模数据集，实现了具有多种提示类型和几何线索集成的大规模开放世界检测。

EXAONE 4.5 是一个开源的视觉语言模型，它将视觉编码器集成到 EXAONE 4.0 中，通过有针对性的数据策展和扩展的上下文长度，实现了增强的文档理解和通用语言能力。

在具有因果关系的结构化事件事实数据上训练的视频语言模型，在需要精确时间推理的复杂视频理解任务上优于现有方法。

弹性循环Transformer（Elastic Looped Transformers）利用带有权重共享和循环内自蒸馏的循环Transformer架构，实现了参数高效的视觉生成，并具有可调节的计算成本和生成质量。

ECHO 是一种高效的基于扩散的视觉语言模型，用于胸部X光报告生成。它通过直接条件蒸馏和响应不对称扩散训练实现更快的推理速度，同时保持高临床准确性。

VisionFoundry 利用大型语言模型和文本到图像提示生成合成的视觉问答数据，以提高视觉语言模型在视觉感知任务上的表现。

一个名为 CT-1 的视觉-语言-相机模型，通过扩散Transformer和小波正则化损失学习相机轨迹，生成具有精确相机控制的视频。