在人工智能领域,多模态学习是一个重要的研究方向,它涉及到从多种类型的数据(如图像、视频、音频和文本)中提取信息,并进行综合理解和生成。随着深度学习技术的发展,多模态大型语言模型(MM-LLMs)已经成为这一领域的热点。然而,现有的MM-LLMs虽然能够接受多种模态的输入,但其生成能力大多局限于文本。那么,如何让LLMs更好地与我们处理世界的方式对齐?它们能否不仅仅生成文本,还能生成多模态内容?本文将探讨NExT-GPT,这是一个突破性的任何到任何(any-to-any)多模态LLM,它不仅能够接受图像、视频、文本和音频作为输入,还能在需要时生成这些模态的输出。
动机与挑战
人类理解世界的方式是多模态的。我们通过图像、视频、音频和文本进行推理。然而,尽管当前的多模态大型语言模型能够处理多种模态的输入,它们在生成方面的能力却受到了限制。这些模型通常只能生成文本,而不能生成图像、视频或音频。这种局限性限制了它们在模仿人类处理信息方式方面的潜力。因此,开发能够处理和生成多种模态内容的LLMs成为了一个迫切的需求。
NExT-GPT框架概述
NExT-GPT框架的核心思想是实现一个能够接受任何模态输入并根据需要生成任何模态输出的LLM。这个框架通过以下几个关键步骤实现:
- 预训练的多模态编码器(Imagebind):该编码器负责从视频、音频或图像输入中生成令牌(tokens)。
- 分组模块:将模态特定的令牌转换为类似于文本的表示,使LLM能够处理它们。
- 中心LLM模块:接收这些输入并产生文本输出。LLM不仅被训练生成常规文本,还被训练输出特殊令牌,指示解码器创建何种类型的多模态输出(如果有的话)。
- 解码器:根据特殊令牌的信号生成请求的内容。
编码过程
在传统的文本处理中,每个文本令牌都是离散和序列化的。然而,在图像、音频和视频中,每个令牌存在于一个连续的特征空间中,这与LLM处理文本的方式不对应。为了解决这个问题,NExT-GPT引入了一个分组框架:
- 提取多模态特征嵌入:从预训练的Imagebind中提取特征嵌入。
- 基于变换器的分组层:将大量的令牌压缩成更少的表示,并将它们投影到LLM的令牌空间中,使它们在结构上类似于离散的文本令牌。
- LLM处理:LLM将这些视为伪文本令牌,使其能够跨不同模态进行推理。
解码过程
NExT-GPT中的LLM被设计为输出文本和特定的模态令牌(例如[IMGi]、[VIDi]、[AUDi]),这些令牌作为隐式生成指令,指示是否应该产生图像、视频或音频。然而,LLM生成的是离散令牌,而扩散模型依赖于连续的文本嵌入进行生成。为了解决这个问题,NExT-GPT采用了以下方法:
- 对齐解码侧指令调整:使用投影层将特殊模态令牌映射到与扩散模型中的文本嵌入相同的潜在空间。这样,模态特定的令牌就被处理为学习到的条件向量,而不是原始文本。
- 训练中的损失函数:模型在训练过程中最小化三种类型的损失函数,包括NLL损失、L2距离损失和条件潜在去噪损失。
指令调整
在对齐之后,系统还需要处理多轮用户指令,生成每个回合适当的模态特定输出。为了解决这个问题,NExT-GPT的作者引入了MosIT,这是一个文本到多模态(T2M)数据集,使用GPT-4生成了5000个结构化的多轮指令,涉及生成图像、视频和音频。
MosIT数据集
MosIT数据集的创建是为了训练模型处理多轮、任何到任何的多模态任务。这个数据集通过以下方式实现:
- LoRA微调:LoRA只更新LLM参数的一个子集,以提高其遵循指令的能力。
- 交叉熵损失:确保LLM生成的输出与MosIT的黄金注释对齐。
- 解码器微调:模态特定的信号令牌必须调节相应的扩散模型,以生成正确的多模态输出。
- 生成损失:确保多模态输出与预期的标题匹配。
结果与评估
NExT-GPT在图像描述、视频问答和音频描述方面取得了最新的最佳结果,同时生成的多模态内容质量也超过了基线。在人类评估中,它在指令遵循、响应合理性和生成质量方面也优于基于管道的MM-LLMs。
结论
NExT-GPT作为第一个任何到任何的多模态LLM,在指令遵循和内容质量方面超越了当前的MM-LLMs。通过使用模态切换指令调整(MosIT)、轻量级微调(LoRA)和新颖的模态令牌,它实现了最新的多模态推理和生成能力。此外,端到端的训练增强了其鲁棒性和可扩展性,确立了NExT-GPT作为未来多模态AI研究的基础。
未来展望
NExT-GPT的出现标志着多模态LLMs的一个重要进步。它不仅能够处理和生成多种类型的数据,还能够在不同的模态之间进行转换,这对于提高人工智能系统的理解和交互能力具有重要意义。随着技术的不断发展,我们可以预见,未来的多模态LLMs将在更广泛的应用场景中发挥作用,包括但不限于自动内容创作、智能助手、教育和娱乐。NExT-GPT的成功为这一领域的研究提供了新的方向和动力,预示着多模态AI的光明未来。