当前位置:新加坡留学>留学资讯>新加坡国立大学开源NExT-GPT，助力AI发展

新加坡国立大学开源NExT-GPT，助力AI发展

上传时间:2023-11-29 16:46:15浏览量:367

助力ai发展，近期来自于新加坡国立大学的 NExT++ 实验室的华人团队率先开源了一款大一统通用多模态大模型“NExT-GPT”，它支持任意模态输入到任意模态输出。目前NExT-GPT的代码已经开源，并且上线了 Demo 系统，下面就随tops留学老师一起走近看看吧！

　　新加坡国立大学NExT-GPT主要架构内容：

　　NExT-GPT是新加坡国立大学开源的多模态语言模型，支持处理文本、图像、视频和音频，为多媒体人工智能应用提供强大支持。

　　采用三层架构，包括线性投影、Vicuna、LLM核心和模态特定的转换层，通过MosIT技术进行中间层训练。

　　(1)多模编码阶段：利用已开源的编码器对各种输入模态进行编码，然后通过一个投影层将这些特征投影为 LLM 所能够理解的「类似语言的」表征。作者采用了 MetaAI 的 ImageBind 统一多模态编码器。

　　(2)推理中枢阶段：利用开源 LLM 作为核心大脑来处理输入信息，进行语义理解和推理。LLM 可以直接输出文本，同时其还将输出一种「模态信号」token，作为传递给后层解码端的指令，通知他们是否输出相应的模态信息，以及输出什么内容。作者目前采用了 Vicuna 作为其 LLM。

　　(3)多模生成阶段：利用各类开源的图像扩散模型、声音扩散模型以及视频扩散模型，接收来自 LLM 的特定指令信号，并输出所对应的模型内容(如果需要生成的指令)。

　　据悉，模型在推理时，给定任意组合模态的用户输入，通过模态编码器编码后，投影器将其转换为特征传递给 LLM(文本部分的输入将会直接出入到 LLM)。然后 LLM 将决定所生成内容，一方面直接输出文本，另一方面输出模态信号 token。如果 LLM 确定要生成某种模态内容(除语言外)，则会输出对应的模态信号 token，表示该模态被激活。

　　此外，文中作者指出，NExT-GPT 可能并不是实现任意模态输入到任意模态输出功能的首个工作。目前有两类前驱工作：

　　一类是不久前所发布的 CoDi 模型，其整合了各种模态的 diffusion 模型，可以同时处理和生成各种组合的模态内容。然而作者指出，CoDi 由于缺乏 LLMs 作为其核心部件，其仅限于成对(Parallel)内容的输入和生成，而无法实现复杂的内容推理和决策，根据用户输入的指令灵活响应。

　　另一类工作则试图将 LLMs 与现有的外部工具结合，以实现近似的「任意多模态」理解和生成，代表性的系统如 Visual-ChatGPT 和 HuggingGPT。但作者指出，由于这类系统在不同模块之间的信息传递完全依赖于 LLM 所生成的文本，其割裂、级联的架构容易不可避免地引入了噪音，降低不同模块之间的特征信息传递效用。并且其仅利用现有外部工作进行预测，缺乏一种整体的端到端训练，这对于充分理解用户的输入内容和指令是不利的。

　　新加坡国立大学NExT-GPT两大亮点：

　　(1)低成本实现复杂推理 + 多模态 in 和多模态 out

　　NExT-GPT 完全基于现有开源的高性能模块(比如目前性能最强的扩散模型)，充分站在巨人的肩膀上，以最低的成本实现大一统多模态大模型的构建目标(实验室可承担级别的成本)。

　　(2)高效率端到端训练和模态对齐学习

　　妥当的、端到端的系统训练是 NExT-GPT 区别于现有其他组合型统一大模型系统最重要的一点，也是保证 NExT-GPT 具有优秀性能的前提。另一方面，还需要充分对齐系统中的所有模态的特征表征。为了既保证具有较好的学习成效，又全面降低、控制学习成本，本工作包含了以下的亮点。

　　新加坡国立大学NExT-GPT未来进展空间：

　　基于NExT-GPT，后续的研究工作可以考虑以下几个方面：

　　1.模态与任务扩展：受限于现有资源，目前作者所开源的 NExT-GPT 系统仅支持四种模态：语言、图像、视频和音频。作者表示，后续会逐步扩展到更多的模态(例如，网页、3D 视觉、热图、表格和图表)和任务(例如，对象检测、分割、定位和跟踪)，以扩大系统的普遍适用性。

　　2.考虑更多基座 LLM：目前作者实现了基于 7B 版本的 Vicuna LLM，其表示下一步将整合不同大小的 LLM，以及其他 LLM 类型。

　　3.多模态生成策略：目前版本的 NExT-GPT 系统仅考虑了基于扩散模型的纯输出方式的多模态输出。然而生成模式容易输出错误幻想内容(Hallucination)，并且输出内容的质量往往容易受到扩散模型能力的限制。因此，进一步提升扩散模型的性能很关键，这能直接帮助提高多模态内容的输出质量。另外，实际上可以整合基于检索的方法来补充基于生成的过程的弊端，从而提升整体系统的输出可靠性。

　　4. 降低多模态支持成本：可以考虑进一步降低对更多模态的支持的成本。NExT-GPT 考虑了 ImageBind 来统一多种模态的编码，从而节省了在编码端的代价。而对于多模态输出端，作者简单地集成了多个不同模态的扩散模型。如何防止随着模态的增加而动态增加解码器是后续的重要研究方面。比如可以考虑将一些支持不同模态生成(但具有模态共性)的扩散模型进行复用。

　　5. MosIT 数据集扩展：目前 NExT-GPT 所使用的 MosIT 数据集规模受限，这也会限制其与用户的交互表现。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

　　以上是关于新加坡国立大学开源NExT-GPT的全部新闻，如果还想了解更多关于新加坡留学申请方面的相关知识的，欢迎随时在线咨询托普仕留学老师。托普仕留学多年名校申请经验助力你的留学申请。