面向多模态内容输出的大语言模型训练方法技术

技术编号：39516261 阅读：18 留言：0更新日期：2023-11-25 18:53

本发明专利技术公开了一种面向多模态内容输出的大语言模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
面向多模态内容输出的大语言模型训练方法、装置及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种面向多模态内容输出的大语言模型训练方法
、
装置及介质
。

技术介绍

[0002]近年来，大语言模型在各个领域上取得了巨大的成功
。
大语言模型通常通过从互联网上爬取的大规模语料库来训练其文本理解能力，其将语料库中的文本进行随机比例的遮盖，通过预测每一个
token
向量属于哪一个单词的概率来得到输出文本，这种训练方式使得大语言模型难以处理和生成文本以外的模态数据
。
一些现有的研究将不同模态的大模型视为互相独立的函数功能，大语言模型可以通过生成调用函数的方式来使用不同的模型完成多模态数据处理
、
分析
、
生成等任务
。
然而，由于这些不同的模型之间只能以文本或调用函数接口进行交互，极大地提高了多模态数据流通和处理的成本，也使得对不同模态信息的联合推理无法实现
。
[0003]为了解决上述问题，多模态大模型尝试将多模态数据内容嵌入到大语言模型的理解过程中，使其具有跨模态感知推理能力
。
现有方法通常将其他模态的数据（如图片模态）利用额外的
。
然而，这些多模态大模型只具备在输入端进行多模态理解和推理的能力，其在输出端并不具备多模态输出能力
。
大语言模型仍然受限于其文本输出能力，难以通过低维度数据（如图片或声音）与人类进行更加丰...

【技术保护点】

【技术特征摘要】
1.
一种面向多模态内容输出的大语言模型训练方法，其特征在于，包括以下步骤：构建用于训练大语言模型的图片
‑
声音
‑
文本三元组数据集；构建多模态大语言模型，所述多模态大语言模型包括经过预训练的大语言模型
、
交叉注意力模型
、
视觉模型和声音模型；在所述大语言模型的输出层嵌入多个并行的
LoRA
插件，并初始化
LoRA
插件和门控选择器；基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型，以使多模态大语言模型具有图片模态和声音模态数据的生成能力；微调多模态大语言模型，以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容
。2.
根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，所述构建用于训练大语言模型的图片
‑
声音
‑
文本三元组数据集，包括：获取图片
‑
文本数据对，通过基于视觉引导的声音合成工具，对图片
‑
文本数据对中的图片生成对应的声音，获得图片
‑
声音
‑
文本三元组；和
/
或，从预设的视频数据集中抽取多个图片
‑
声音
‑
文本三元组；从视频数据集中的每一个视频中随机抽取关键帧和该关键帧所对应的音频作为图片
‑
声音配对，再利用视觉描述模型对图片内容进行文本描述，获得图片
‑
声音
‑
文本三元组；根据获得的图片
‑
声音
‑
文本三元组构建图片
‑
声音
‑
文本三元组数据集
。3.
根据权利要求2所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，所述根据获得的图片
‑
声音
‑
文本三元组构建图片
‑
声音
‑
文本三元组数据集，包括：利用自然语言处理模型，根据预设的指令模板将对图片
‑
声音
‑
文本三元组中的文本描述基于场景转换为指令对话形式；其中，预设的指令模板包括图文声聊天机器人模板和基于语言指令的多模态内容编辑模板
。4.
根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，在多模态大语言模型的训练过程中，固定所述大语言模型
、
交叉注意力模型
、
视觉模型和声音模型的参数
。5.
根据权利要求1所述的一种...

【专利技术属性】
技术研发人员：谭明奎，孙鑫宇，邓泽帅，杜卿，陈健，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人