【2026 arXiv】EVA: Efficient Reinforcement Learning for End-to-End Video Agent

张开发
2026/4/11 21:03:09 15 分钟阅读

分享文章

【2026 arXiv】EVA: Efficient Reinforcement Learning for End-to-End Video Agent
EVA 研究详细介绍了如何通过强化学习将多模态大语言模型(MLLM)转变为能够自主、高效理解视频的智能体。文章目录核心问题核心思想方法介绍A. 灵活的工具设计B. 三阶段训练策略实验介绍主要贡献核心问题现有的视频理解系统主要面临两大挑战:被动感知与效率低下:大多数模型被动地处理整段视频或均匀采样帧,无法根据问题进行自适应推理,导致在长视频处理上极其低效。现有的 Agent 方案过于僵化:虽然一些 Agent 方法引入了外部工具,但其工作流通常是人工设计的,且依然遵循“先感知后推理”的策略,即先看一些帧再思考,这导致了视觉处理的冗余和推理灵活性不足。根本挑战:如何让 MLLM 智能体在不看视频的情况下,仅根据问题就自主决定“看什么、什么时候看、怎么看”。核心思想EVA 的核心思想是“先规划后感知” (Planning-before-perception)。主动探索:模型不再是静态地接收信息,而是作为一个主动的观察者,通过迭代的“总结-规划-动作-反思” (Summary-Plan-Action-Reflection) 循环来逐步精细化其感知。动态资源分配:智能体可以自主决定采样的时间窗口、帧数以及空间分辨率(缩放),从而在有限的视觉 To

更多文章