llm-paper-daily/summary/2023-12/2312.07533.md at main · xianshang33/llm-paper-daily · GitHub

背景

背景
论文针对视觉语言模型（VLMs）通过对大型语言模型（LLMs）的视觉指令调优进行研究，发现当前的VLMs缺乏深入研究学习如何在模型中执行联合建模以处理视觉输入和文本输入的预训练过程。
已有的工作 已有工作多集中在通过监督细调（SFT）或人类反馈的强化学习（RLHF）来提升视觉语言指令调优过程，但对成本高昂但对模态对齐至关重要的预训练过程缺少透彻研究。

核心贡献

提出了一个视觉语言模型预训练方法VILA
- 挑战1：在预训练中冻结LLMs可以得到不错的零样本性能，但缺少上下文学习（ICL）能力 提出在预训练过程中更新LLMs是必要的，这有助于深层次的嵌入式对齐，从而提升ICL能力。
- 挑战2：如何处理数据的选择和训练协议对于预训练性能的影响 发现交叉预训练数据对于提供准确的梯度更新和维护文本能力是至关重要的。在SFT过程中增加仅文本指令数据，可以缓解仅文本任务的退化，并提高视觉语言任务准确性。

实现与部署

VILA模型在一系列视觉语言任务中明显优于现有技术模型（如LLaVA-1.5），得益于改进的预训练过程。VILA展示了一些有趣的能力，例如多图像推理、更强的上下文学习能力以及更丰富的世界知识。实验结果核实了通过交叉视觉语言数据重点预训练所带来的正面影响。

总结

VILA利用改进的预训练策略，在多种视觉语言任务中显示出卓越的性能，为未来视觉语言模型的设计提供了实用指南。