-
背景
文章介绍了长视频理解在计算机视觉领域代表了重大挑战,需要模型能够处理多模态信息,处理长序列并有效地进行推理。虽然已有的大型语言模型(LLMs)在推理和处理长文本中表现突出,但它们缺乏处理视觉信息的能力。相对而言,视觉语言模型(VLMs)在处理长视觉输入时表现不佳。已经有努力使VLMs能够模拟长文本内容,但这些方法在视频理解的基准测试中表现不足,且在处理长视频内容时效率低下。 -
已有的工作 现有的方法在处理长序列、多模态信息处理以及推理方面往往无法同时取得突出表现。比如,以往的方法通过均匀采样帧或单次迭代选择帧的方式未能充分利用视频内容,或者使用原始问题作为查询来检索帧,但没有重写查询以实现更精确、细粒度的帧检索。
- 提出了一个名为VideoAgent的大语言模型代理系统
-
挑战1:长序列的推理和计划能力 长视频理解需要在长时间跨度内对多模态序列进行推理。VideoAgent模仿人类理解长视频的认知过程,通过迭代的方式选取和汇总关键信息来回答问题。LLM作为代理,通过评估当前信息并确定需要的额外信息,然后使用CLIP检索包含此信息的新帧并更新状态。
-
挑战2:处理视觉信息的能力 LLM通常缺乏处理视觉信息的能力。为了克服这一点,VideoAgent利用VLM将新帧的视觉内容转换为文本描述,与CLIP模型一起服务为工具,使LLM具备视觉理解和长文本检索能力。
-
在两个长视频理解基准测试EgoSchema和NExT-QA上的评估显示,VideoAgent展现出了优异的有效性和效率。VideoAgent分别在这两个基准测试上取得了54.1%和71.3%的准确率,比当下最先进的方法LLoVi提高3.8%和3.6%。值得注意的是,VideoAgent平均只使用了8.4帧,比LLoVi使用的要少20倍。消融研究强调了迭代帧选择过程的重要性,这个过程可以根据视频的复杂度适应性地搜索和聚合相关信息。案例研究显示VideoAgent可泛化到任意长的视频,包括长达一个小时或更长的视频。
VideoAgent通过模仿人类的认知过程,在长视频理解方面迈出了重要的一步,强调了在长时间跨度内对视觉信息进行推理的重要性。此工作不仅为长视频理解设立了新的基准,也为未来该方向的研究提供了启示。