Daily Papers - 2026-04-13
This daily digest collects the top 10 papers from the Hugging Face papers feed for 2026-04-13.
1. FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
FORGE 引入了一个高质量的多模态制造数据集,该数据集具有细粒度的领域语义,用于评估多模态大型语言模型(MLLMs)在真实世界任务中的表现。研究表明,限制性能的是领域特定知识而非视觉基础,并通过在结构化标注上进行监督微调可以显著提高准确性。
2. RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
提出了一种名为 RefineAnything 的多模态扩散模型,用于区域特定的图像精炼。该模型在保留背景的同时增强局部细节,采用了聚焦-精炼策略和边界感知损失函数。
3. Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
Matrix-Game 3.0 通过记忆增强的扩散模型增强了交互式视频生成,实现了具有长期时间一致性的实时 720p 视频合成。
4. WildDet3D: Scaling Promptable 3D Detection in the Wild
一个统一的3D目标检测框架搭配大规模数据集,实现了具有多种提示类型和几何线索集成的大规模开放世界检测。
5. EXAONE 4.5 Technical Report
EXAONE 4.5 是一个开源的视觉语言模型,它将视觉编码器集成到 EXAONE 4.0 中,通过有针对性的数据策展和扩展的上下文长度,实现了增强的文档理解和通用语言能力。
6. Structured Causal Video Reasoning via Multi-Objective Alignment
在具有因果关系的结构化事件事实数据上训练的视频语言模型,在需要精确时间推理的复杂视频理解任务上优于现有方法。
7. ELT: Elastic Looped Transformers for Visual Generation
弹性循环Transformer(Elastic Looped Transformers)利用带有权重共享和循环内自蒸馏的循环Transformer架构,实现了参数高效的视觉生成,并具有可调节的计算成本和生成质量。
8. ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
ECHO 是一种高效的基于扩散的视觉语言模型,用于胸部X光报告生成。它通过直接条件蒸馏和响应不对称扩散训练实现更快的推理速度,同时保持高临床准确性。
9. VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
VisionFoundry 利用大型语言模型和文本到图像提示生成合成的视觉问答数据,以提高视觉语言模型在视觉感知任务上的表现。
10. CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
一个名为 CT-1 的视觉-语言-相机模型,通过扩散Transformer和小波正则化损失学习相机轨迹,生成具有精确相机控制的视频。