面向多模态内容输出的大语言模型训练方法技术

技术编号:39516261 阅读:27 留言:0更新日期:2023-11-25 18:53
本发明专利技术公开了一种面向多模态内容输出的大语言模型训练方法

【技术实现步骤摘要】
面向多模态内容输出的大语言模型训练方法、装置及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种面向多模态内容输出的大语言模型训练方法

装置及介质


技术介绍

[0002]近年来,大语言模型在各个领域上取得了巨大的成功

大语言模型通常通过从互联网上爬取的大规模语料库来训练其文本理解能力,其将语料库中的文本进行随机比例的遮盖,通过预测每一个
token
向量属于哪一个单词的概率来得到输出文本,这种训练方式使得大语言模型难以处理和生成文本以外的模态数据

一些现有的研究将不同模态的大模型视为互相独立的函数功能,大语言模型可以通过生成调用函数的方式来使用不同的模型完成多模态数据处理

分析

生成等任务

然而,由于这些不同的模型之间只能以文本或调用函数接口进行交互,极大地提高了多模态数据流通和处理的成本,也使得对不同模态信息的联合推理无法实现

[0003]为了解决上述问题,多模态大模型尝试将多模态数据内容嵌入到大语言模型的理解过程中,使其具有跨模态感知推理能力

现有方法通常将其他模态的数据(如图片模态)利用额外的

然而,这些多模态大模型只具备在输入端进行多模态理解和推理的能力,其在输出端并不具备多模态输出能力

大语言模型仍然受限于其文本输出能力,难以通过低维度数据(如图片或声音)与人类进行更加丰富和生动的交互


技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种面向多模态内容输出的大语言模型训练方法

装置及介质

[0005]本专利技术所采用的技术方案是:一种面向多模态内容输出的大语言模型训练方法,包括以下步骤:构建用于训练大语言模型的图片

声音

文本三元组数据集;构建多模态大语言模型,所述多模态大语言模型包括经过预训练的大语言模型

交叉注意力模型

视觉模型和声音模型;在所述大语言模型的输出层嵌入多个并行的
LoRA
插件,并初始化
LoRA
插件和门控选择器;基于文本描述重构图片和声音,根据重构后的数据训练多模态大语言模型,以使多模态大语言模型具有图片模态和声音模态数据的生成能力;微调多模态大语言模型,以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容

[0006]进一步地,所述构建用于训练大语言模型的图片

声音

文本三元组数据集,包括:获取图片

文本数据对,通过基于视觉引导的声音合成工具,对图片

文本数据对中的图片生成对应的声音,获得图片

声音

文本三元组;和
/
或,从预设的视频数据集中抽取多个图片

声音

文本三元组;从视频数据集中的每一
个视频中随机抽取关键帧和该关键帧所对应的音频作为图片

声音配对,再利用视觉描述模型对图片内容进行文本描述,获得图片

声音

文本三元组;根据获得的图片

声音

文本三元组构建图片

声音

文本三元组数据集

[0007]进一步地,所述根据获得的图片

声音

文本三元组构建图片

声音

文本三元组数据集,包括:利用自然语言处理模型,根据预设的指令模板将对图片

声音

文本三元组中的文本描述基于场景转换为指令对话形式;其中,预设的指令模板包括图文声聊天机器人模板和基于语言指令的多模态内容编辑模板

[0008]进一步地,在多模态大语言模型的训练过程中,固定所述大语言模型

交叉注意力模型

视觉模型和声音模型的参数,以避免模型的灾难性遗忘问题以及昂贵的训练开销

[0009]进一步地,所述在所述大语言模型的输出层嵌入多个并行的
LoRA
插件,并初始化
LoRA
插件和门控选择器,包括:在大语言模型的输出层嵌入多个并行的
LoRA
插件,通过矩阵低秩分解将大语言模型的参数分为固定权重和可学习参数和;每个
LoRA
插件具有对应的参数和,将参数初始化为随机高斯分布,将参数初始化为全0;
[0010]随机初始化门控选择器;
[0011]初始化输出解码器,其中输出解码器包括图片解码器和音频解码器

[0012]进一步地,在大语言模型的第层中,门控选择器建模为一个单层
MLP
模型,其输入为层的输出,门控选择器用于预测
LoRA
插件的权重,表达式如下:
[0013][0014]式中,表示大语言模型第
n
‑1层的输出;
[0015]在训练过程中,
LoRA
插件的更新方式如下所示:
[0016]式中,表示冻结的大语言模型参数,表示待更新的
LoRA
插件参数,表示门控选择器对第个
LoRA
插件预测的权重

[0017]进一步地,所述基于文本描述重构图片和声音,根据重构后的数据训练多模态大语言模型,包括:在多模态大语言模型的预训练阶段,模型的输入为图片

声音

文本三元组的提示;其中,文本包括图片和声音的描述,以及对多模态大语言模型的指令,文本经过标记器处理为词块;图片和声音经过交叉注意力机制编码为多模态词块和;
[0018]在训练过程中,多模态大语言模型的输出将被期望同时包含图片

声音模态内容的标签对和相应的离散编码;其中,在离散编码维度上监督大模型的预测结果,而非图片和声谱图的像素维度

[0019]进一步地,训练过程中的损失函数的表达式为:
[0020]式中,为第个词块,为上下文窗口长度;
[0021]概率写为:
[0022][0023][0024][0025]式中,为词编码矩阵,为位置编码矩阵;为图片

声音

文本三元组的提示;表示大语言模型的自注意力机制模块,为归一化指数函数

[0026]本专利技术所采用的另一技术方案是:一种面向多模态内容输出的大语言模型训练装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向多模态内容输出的大语言模型训练方法,其特征在于,包括以下步骤:构建用于训练大语言模型的图片

声音

文本三元组数据集;构建多模态大语言模型,所述多模态大语言模型包括经过预训练的大语言模型

交叉注意力模型

视觉模型和声音模型;在所述大语言模型的输出层嵌入多个并行的
LoRA
插件,并初始化
LoRA
插件和门控选择器;基于文本描述重构图片和声音,根据重构后的数据训练多模态大语言模型,以使多模态大语言模型具有图片模态和声音模态数据的生成能力;微调多模态大语言模型,以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容
。2.
根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,所述构建用于训练大语言模型的图片

声音

文本三元组数据集,包括:获取图片

文本数据对,通过基于视觉引导的声音合成工具,对图片

文本数据对中的图片生成对应的声音,获得图片

声音

文本三元组;和
/
或,从预设的视频数据集中抽取多个图片

声音

文本三元组;从视频数据集中的每一个视频中随机抽取关键帧和该关键帧所对应的音频作为图片

声音配对,再利用视觉描述模型对图片内容进行文本描述,获得图片

声音

文本三元组;根据获得的图片

声音

文本三元组构建图片

声音

文本三元组数据集
。3.
根据权利要求2所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,所述根据获得的图片

声音

文本三元组构建图片

声音

文本三元组数据集,包括:利用自然语言处理模型,根据预设的指令模板将对图片

声音

文本三元组中的文本描述基于场景转换为指令对话形式;其中,预设的指令模板包括图文声聊天机器人模板和基于语言指令的多模态内容编辑模板
。4.
根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法,其特征在于,在多模态大语言模型的训练过程中,固定所述大语言模型

交叉注意力模型

视觉模型和声音模型的参数
。5.
根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:谭明奎孙鑫宇邓泽帅杜卿陈健
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1