基本信息
Title: AnyGPT: Unified Multimodal Large Language Model with Discrete Sequence Modeling
Authors and Affiliations:
- Jun Zhan^1,∗, Junqi Dai^1,∗, Jiasheng Ye^1,∗, Yunhua Zhou^1, Dong Zhang^1, Zhigeng Liu^1, Xin Zhang^1, Ruibin Yuan^2, Ge Zhang^2, Linyang Li^1, Hang Yan^3, Jie Fu^2, Tao Gui^1, Tianxiang Sun^1, Yugang Jiang^1, Xipeng Qiu^1,†
- ^1 Fudan University
- ^2 Multimodal Art Projection Research Community
- ^3 Shanghai AI Laboratory
Contact Emails:
- Jun Zhan, Junqi Dai, Jiasheng Ye:
{jzhan22, jqdai22, jsye23}@m.fudan.edu.cn
- Xipeng Qiu (Corresponding Author):
xpqiu@fudan.edu.cn
Project Page:
Publication:
- arXiv Identifier: 2402.12226
AnyGPT的突出之处在于,它维持了大型语言模型(LLM)架构和训练范式的不变,而是依赖于数据级预处理来整合新的模态——这类似于向LLM添加新语言。它合成了一个重要的多模态指令数据集,AnyInstruct-108k,包含108k个多回合对话,这些对话交织了多种模态的输入和输出,解决了缺乏全面多模态对齐数据的问题。
实验评估展示了AnyGPT在任意多模态对话中的能力,与专门模型在所有考虑的模态中的性能相媲美。这一成就强调了在语言模型框架内统一多个模态的离散表示的有效性。
文档进一步深入探讨了相关工作,详细说明了多模态LLM和离散化方法的进展和挑战。它详尽地解释了AnyGPT的组成部分,包括不同模态的标记化、语言模型的主干以及多模态生成的过程,提供了对统一多模态处理的创新方法的见解。
文章突出了贡献,包括开发了一个基于令牌的任意多模态语言模型和创建了一个综合数据集以增强多模态对话。文档还概述了研究的未来方向,强调了在任意多模态LLM中需要基准测试以及改进标记器质量和扩展上下文中多模态数据处理的需求。
这个综合概述捕捉了AnyGPT模型的本质和抱负,将其定位为多模态语言模型研究中的一个重要进步。
多模态交错指令数据集 AnyInstruct 的构建过程分为两个阶段:生成包含多模态元素的基于文本的对话和文本到多模态的转换。第一阶段生成主题、场景和文本对话,第二阶段生成最终的多模态对话。