-
背景
本论文探讨了多模态大型语言模型(MLLMs)中视觉投影器的重要作用。由于该投影器在连接预训练的视觉编码器与大型语言模型(LLMs)中起到桥梁作用,它对模型的视觉理解能力和利用LLM的强大能力至关重要。但是,这方面的研究相对较少,论文首先确认两个重要的投影器属性:一是在管理视觉标记数量方面的灵活性,这对MLLM的整体效率至关重要;二是保持视觉特征的局部上下文,这对空间理解至关重要。 -
已有的工作 目前多数MLLM简单采用线性投影器或抽象器,而最近的研究倾向于使用抽象器,因为它们在处理视觉标记数量上更具灵活性,提供了在效率和有效性之间找到平衡的多样化设计选项。但是,抽象器在学习以空间理解为导向的任务时面临挑战,这主要是因为抽象过程缺乏对局部性感知的设计,往往只从少数区域而不是所有区域中抽象出视觉信息,从而丢失了空间理解所需的细节。相比之下,线性投影器卓越地保留了视觉特征的局部上下文。
- 提出了一个强调局部性的新型投影器
-
挑战1:保留视觉特征的局部性 为了保持视觉特征的局部性并提高效率,论文引入了两个局部性增强抽象器C-Abstractor和D-Abstractor,通过使用卷积和可变形注意力这两种强大的局部性建模操作。这些局部性感知设计的注入不仅促进了MLLM在处理复杂视觉信息方面的整体性能改进,而且在LLMs的后续响应生成阶段利用了计算效率。
-
挑战2:多面向指令数据的有效利用 论文提出了有效利用多种和多面向的指令数据集的策略,面对从指令数据中受益最大化的重要但鲜为人知的设计选择提供了解决方案。论文通过广泛实验验证了单独设计选择对多个基准测试的影响,并提供了训练强大MLLM的宝贵见解。
-
Honeybee模型在多个基准测试中显著超越了之前的最佳方法,包括MME, MMBench, SEED-Bench和LLaVA-Bench,实现了明显更高的效率。通过对C-Abstractor和D-Abstractor的设计选择和实现细节的深入分析,以及通过可视化指令调整的策略,论文验证了所提出的方法对效率和性能的影响。
论文提出了一种新型的局部性增强投影器设计,解决了现有方法在处理视觉特征局部性上的不足,并有效利用了多面向指令数据集,最终使得Honeybee模型在多个MLLM基准测试中取得了显著的性能提升。