llm-paper-daily/summary/2023-12/2312.037.md at a35961641b10d7240f05dda4aa6c5711f5cea11f · xianshang33/llm-paper-daily · GitHub

背景

背景
论文中介绍了大型语言模型（LLMs）在研究界和产业中越来越流行，特别是它们在语言理解和推理能力方面的强大潜力。因此，研究者们试图将LLMs用于多模态任务，如视觉-语言学习、音频和语音识别、视频理解等。然而，现有的多模态大型语言模型（MLLMs）严重依赖于特定于模态的编码器，这些编码器通常在架构上不同并且被限制在常见模态上。
已有的工作 过去的研究中，MLLMs的构建通常需要对每个模态使用特定的编码器和投影模块，而这些编码器往往在架构上互不相同，需要花费大量的努力来将它们统一到单一框架中。此外，能够提供可靠性能的预训练编码器通常仅限于常用的模态，比如图像、音频和视频，这限制了MLLMs扩展到更多模态的能力。

核心贡献

提出了一个统一框架
- 挑战1：如何构建一个统一且可扩展的编码器 现有LLMs的限制在于，它们无法适应除最常用的几种模态外的更多模态，因此关键挑战是如何构建一个能够处理广泛模态的统一和可扩展的编码器。论文的方法是通过启发于其他研究，证明了预训练的encoder可能不是必需的；而一个预训练得当的transformer可作为一个全模态通用的encoder。
- 挑战2：如何进一步提升模型的多模态理解和指令服从能力 论文通过构建OneLLM，一个集成了8种不同模态的MLLM，使用了统一的编码器和投影模块，以及通过提出极具创新性的通用投影模块（UPM）和动态路由策略，以递进的方式将更多模态对齐到LLM。论文中提出的大规模多模态指令数据集，包含了图像音频视频等在内的8种模态，为模型提供了强大的多模态理解、推理和指令遵循能力。

实现与部署

OneLLM在25个不同的基准测试中进行了评估，这些基准测试包括多模态字幕制作、问题回答和推理任务。其表现优于先前的专业模型和MLLMs，展现出卓越的性能。相关的代码、数据、模型和在线演示都已在GitHub上提供。

总结

OneLLM通过其统一的多模态编码框架和渐进式对齐管道，在推理和利用方面展示了强大的多模态理解和处理能力，并成功地处理了扩展多模态LLMs的挑战。