背景

背景
当前的大型语言模型（LLMs）已经显示出在理解和生成人类语言方面的显著能力。然而，它们的能力仅限于文本处理。现实世界是一个多模态的环境，其中生物通过多种渠道感知和交换信息，包括视觉、语言、声音和触觉。将LLMs扩展到有能力处理多种模态的信息，是当下发展多模态系统的一个重要目标。
已有的工作 传统的通过将多模态编码器集成到LLM中，使其能够处理多种模式的信息并利用其高级文本处理能力产生连贯的响应，但是这种方法存在挑战，包括 multimodal 数据的生成难度高、需要大量比特来准确表示 high-definition 图像和 high-fidelity 音频、以及处理长序列时计算复杂度指数级增加。

核心贡献

提出了一个 AnyGPT，一个基于 token 的任意到任意多模态语言模型
- 挑战1：多模态数据生成和表示的挑战 AnyGPT 使用了多模态分词器压缩原始多模态数据（如图像和音频）为离散语义 token，允许核心 LLM 在语义层面上自回归地统一任务，比如感知、理解、推理和生成。之后再将离散表示转换回原始模态表示。这样的离散表示过滤掉了高频的模态特定的感知信息，同时保留了关键的低频语义信息，因此可以稳定地训练模型，而不需要改变现有的 LLM 架构或训练范式。
- 挑战2：提高效率与保持高效能的平衡 AnyGPT 通过一个两阶段框架进行高保真度生成，涵盖了语义信息建模和感知信息建模。首先 LLM 负责生成在语义层面上已经进行了融合和对齐的内容，然后非自回归模型将多模态语义 token 转换为感知层面上的高保真多模态内容。这样的方法平衡了性能和效率，允许 AnyGPT 通过只用 3 秒钟的话语提示即能复制任何人的声音，同时显著减少了给 LLM 的声音序列的长度。

实现与部署

AnyGPT 采用了语义层面 SEED token 与图像的隐空间解码为高质量图片，用于可视语言建模；同样地，通过 SoundStorm 实现声音受理，使用特定的带有 SpeechTokenizer 非自回归语言模型对多语言 LibriSpeech（MLS）数据集进行训练，然后转换为原始音频数据；对于音乐，采用 Encodec token 过滤掉人类感知之外的高频细节，再通过 Encodec 解码器重建。这种方法扩展了传统的 LLM 以处理各种模态交互，其实验结果显示 AnyGPT 能够处理任意到任意多模态对话，证明离散表示法能在语言模型中高效、便利地统一多种模态。

总结

AnyGPT 是一个多模态架构的语言模型，通过离散序列建模，能够实现不同模态间的无缝转换和统一处理，提供任意到任意模态之间的生成能力，同时不需要改变现有的 LLM 架构或训练范式。该模型通过在语义和感知水平进行建模，能有效处理和生成高质量的多模态内容，并且与专业模型相比具有可比较的性能。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2402.12226.md

2402.12226.md

背景

核心贡献

实现与部署

总结

Files

2402.12226.md

Latest commit

History

2402.12226.md

File metadata and controls

背景

核心贡献

实现与部署

总结