基于多模态编码器的多模态大语言模型训练方法及系统技术方案

技术编号：39733331 阅读：13 留言：0更新日期：2023-12-17 23:35

本发明专利技术公开了基于多模态编码器的多模态大语言模型训练方法及系统，涉及电子信息技术领域，包括构建多模态大语言模型训练框架由参数冻结的多模态编码器

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态编码器的多模态大语言模型训练方法及系统

[0001]本专利技术涉及电子信息
，具体为基于多模态编码器的多模态大语言模型训练方法及系统
。

技术介绍

[0002]随着
ChatGPT、GPT
‑4等大语言模型
(Large Language Model, LLM)
展现了在文本上强大的理解
、
推理和生成能力，尤其是其拥有与人类通过自然语言进行交互并合理完成人类指令的能力，激发了工业界和学术界的广泛兴趣
。
有鉴于此，工业界和学术界针对大语言模型进行了多方面的应用与系统的研究，使得大语言模型在机器助手
、
翻译
、
代码生成
、
数学解题
、
复杂现实推理
、
对话生成
、
故事生成
、
机器人决策等领域展现出了非常高的实用价值与落地可能，极大地提高了这些领域的生产效率和产品质量
。
[0003]由于大语言模型是面向文本单模态的，大语言模型只能根据输入的文本生成文本，无法理解图片
、
视频
、
语音等在人类社会中时常用到的其他模态
。
为了增强大语言模型能力，为用户提供更加丰富的交互方式，让大语言模型的生成结果与用户输入进一步对齐，多模态大语言模型
(Multimodal Large Language Model, MLLM)
应运而生
>。
依托于大语言模型强大的理解和推理能力，多模态大语言模型能够输入文本
、
图片
、
视频
、
语音等多种模态，对它们进行统一的理解与推理，并据此生成合理的文本回复
。
[0004]为了训练多模态大语言模型，需要通过图像编码器将对图片的感知
、
理解能力迁移给大语言模型，而由于大语言模型和图像编码器的参数量都很大，从零开始联合训练的成本十分高昂
。
与此同时，之前的工作已经贡献了很多预训练好的图像编码器和大语言模型，拥有不错的单模态性能
。
有鉴于此，
BLIP2
提出利用一个参数量较小
、
可学习的适配器连接一个冻结的图像编码器和一个冻结的大语言模型的训练方法，让图像编码器抽取的图像特征能够被大语言模型理解
。
[0005]BLIP2
式的训练方法与从零开始训练的训练方法相比，有训练成本低，性能表现优异的特点这使得采用类似
BLIP2
的适配器训练多模态大语言模型是当前工业界和学术界的主流选择，典型的采用
BLIP2
式训练的模型有
InstructBLIP、 MiniGPT4 、VisualGLM
和
Video
‑
LLaMA
等
。
[0006]但是，使用
BLIP2
式的训练方法训练多模态大语言模型，存在许多问题：文本指令未知的图像编码
。BLIP2
式的训练方法使用单模态图像编码器对输入图像进行特征编码，这种单模态图像编码器只能在只输入图像的情况下对图像特征进行编码，这使得图像编码时对输入文本指令未知
。
对输入文本指令未知的图像编码限制了抽取图像特征与文本指令的对齐程度，进而限制了多模态大语言模型跟随指令的能力
。
[0007]适配器训练成本较大
。BLIP2
式的训练方法需要训练一个适配器
。
适配器会对图像编码器抽取的图像特征进行精炼，精炼出可以为大语言模型理解的图像
Queries
，以对齐图像编码器和大语言模型
。
在图像编码器和大语言模型都已经预训练好的情况下，
BLIP2
的训练方法仍然需要准备几百万图文对数据用于训练拥有1亿
8800
万可学习参数的适配器，训
练开销仍有不小的优化空间
。
[0008]缺乏对图片上物体的理解
、
推理能力
。
由于通用图像编码器没有设计针对图片上物体的输入处理方式，缺乏对针对图片上物体的理解
、
推理能力
。

技术实现思路

[0009]鉴于上述存在的问题，提出了本专利技术
。
[0010]因此，本专利技术解决的技术问题是：现有的多模态大语言模型训练方法存在训练成本较大，文本指令未知的图像编码，以及如何实现对图片上物体的理解
、
推理能力的优化问题
。
[0011]为解决上述技术问题，本专利技术提供如下技术方案：构建多模态大语言模型训练框架由参数冻结的多模态编码器
、
参数冻结的大语言模型和投影层组成；对模型进行训练基于多模态编码器抽取文本指令可知的图像
Queries
，生成文本回复并计算损失函数；模型推理基于多模态编码器抽取文本指令可知的图像
Queries
和基于大语言模型面向文本指令和图像
Queries
生成文本回复
。
[0012]作为本专利技术所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述多模态大语言模型训练框架包括参数冻结的多模态编码器，多模态编码器在同一个表征空间同时表示图片和文本，多模态编码器经过掩码建模预训练，通过多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列，在编码器最后一层隐层状态包含图文联合信息，通过投影层投影后得到图像
Queries
；参数冻结，经过预训练的大语言模型，结合输入的图像
Queries
和文本数据，根据模型已有知识进行对输入语义的理解
、
推理和生成，通过并行推理技术及大模型推理加速技术，在实时应用场景中生成文本回复；投影层将多模态编码器抽取的连续掩码序列的最后一层隐层状态映射到大语言模型的表征空间，当冻结多模态编码器得到图像
Queries
和大语言模型时，大语言模型理解经过投影后多模态编码器提炼的总结性图文联合信息
。
[0013]作为本专利技术所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述对模型进行训练包括基于多模态编码器抽取文本指令可知的图像
Queries
，首先将输入图像，输入文本指令和个掩码标记组成的连续掩码序列，拼接成一个序列，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，隐层状态表示为：；将隐层状态送入一个参数可学习的线性投影层，通过线性变换将隐层状态从多模态编码器的表征空间投影到大语言模型的表征空间，转变成大语言模型理解的个图像
Queries
，转换过程本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
基于多模态编码器的多模态大语言模型训练方法，其特征在于，包括：构建多模态大语言模型训练框架由参数冻结的多模态编码器
、
参数冻结的大语言模型和投影层组成；对模型进行训练基于多模态编码器抽取文本指令可知的图像
Queries
，生成文本回复并计算损失函数；模型推理基于多模态编码器抽取文本指令可知的图像
Queries
和基于大语言模型面向文本指令和图像
Queries
生成文本回复
。2.
如权利要求1所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述多模态大语言模型训练框架包括参数冻结的多模态编码器，多模态编码器在同一个表征空间同时表示图片和文本，多模态编码器经过掩码建模预训练，通过多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列，在编码器最后一层隐层状态包含图文联合信息，通过投影层投影后得到图像
Queries
；参数冻结，经过预训练的大语言模型，结合输入的图像
Queries
和文本数据，根据模型已有知识进行对输入语义的理解
、
推理和生成，通过并行推理技术及大模型推理加速技术，在实时应用场景中生成文本回复；投影层将多模态编码器抽取的连续掩码序列的最后一层隐层状态映射到大语言模型的表征空间，当冻结多模态编码器得到图像
Queries
和大语言模型时，大语言模型理解经过投影后多模态编码器提炼的总结性图文联合信息
。3.
如权利要求1所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述对模型进行训练包括基于多模态编码器抽取文本指令可知的图像
Queries
，首先将输入图像，输入文本指令和个掩码标记组成的连续掩码序列，拼接成一个序列，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，隐层状态表示为：；将隐层状态送入一个参数可学习的线性投影层，通过线性变换将隐层状态从多模态编码器的表征空间投影到大语言模型的表征空间，转变成大语言模型理解的个图像
Queries
，转换过程表示为：；其中，为个图像
Queries
中的第个
。4.
如权利要求3所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述对模型进行训练还包括生成文本回复并计算生成文本与金标文本的交叉熵损失函数，通过用户输入的图像和文本指令，数据的预期输出金标文本，表示金标文本的第个词，将抽取的图像
Queries
和文本指令拼接，送入大语言模型，大语言模型将以教师监督和自回归的方式生成文本回复，并通过计算损失函数，得到用于更新可学习投影层参数的梯度，更新投影层参数；得到输入大语言模型，得到最后一层隐层状态表示为：
；通过一个线性层和
Softmax
得到最终概率表示为：；其中，为线性层参数，设模型参数为，本阶段的损失函数表示为：；对损失函数求模型参数的偏导数，得到梯度表示为：；采用小批量梯度下降法，计算出一个小批量里每个数据的梯度，计算平均值表示为：；更新模型参数，表示为：；其中，为小批量平均梯度，为学习率
。5.
如权利要求1所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述模型推理包括基于多模态编码器抽取文本指令可知的图像
Queries
，多模态编码器经过掩码建模预训练，根据多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，经投影层投影后得到图像
Queries。6.
如权利要求5所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述模型推理还包括基于大语言模型面向文本指令和图像
Queries
生成文本回复，将抽取的图像
Queries
和文本指令拼接，送入大语言模型，利用大语言模型生成文本回复，生成过程表示为：；其中，为个图像
Queries
中的第个，
0<i≤k。7.
如权利要求6所述的基于多模...

【专利技术属性】
技术研发人员：曹自强，秦罗政，付国宏，曹敏，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人