一种多模态大型语言模型训练方法、电子设备及存储介质技术

技术编号：40103341 阅读：23 留言：0更新日期：2024-01-23 18:02

本发明专利技术提供了多模态大型语言模型训练方法、电子设备和存储介质，涉及计算机技术应用领域，包括：利用第一训练样本对图文对齐模型进行训练，得到训练后的图文对齐模型；第二训练样本对大型语言模型进行训练，第一训练样本对包含一个第一图像样本和对应的原始文本；第一图像样本仅包括自然图像；第二训练样本集包括多个第二训练样本对，每个第二训练样本对包含一个第二图像样本和对应的问答对文本，其中，第二图像样本中设置有目标检测框，第二图像样本至少包括文档、表格、图表和自然图像。本发明专利技术能够理解不同种类的图表和文档数据，且具有对图片中的区域准确定位的能力，能够解锁更加多样的多模态能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机技术应用领域，特别是涉及一种多模态大型语言模型训练方法、电子设备及存储介质。

技术介绍

1、随着chatgpt、bloom、llama等大型语言模型在文本生成和理解方面的强大能力而引起广泛的关注。这些模型可以通过指令微调进一步与用户的意图相一致，显示出强大的交互能力和作为智能助手提高生产力的潜力。然而，大型语言模型只适用于纯文本，缺乏处理图像、语音和视频模态的能力，这在很大程度上限制了模型的应用范围。为打破这一限制，以大型语言模型(llm)作为语言解码器，多模态大型语言模型(mllms)如minigpt-4、llava、mplug-owl、qwen-vl等旨在增强具有感知和理解视觉信号能力的大型语言模型，在各种开放式视觉和语言任务中表现出了显著的零样本能力，并在各领域展现出非凡能力。这些多模态大型语言模型在训练第一阶段被训练成对齐文本和图像，在第二阶段通过指令调优促进模型的泛化能力。由于mllms在没有明确训练视觉文本理解数据集的情况下，缺乏对模型的具体训练，使得mllms仍然面临着理解视觉文本和不同类型图像中的对象之间的复杂关系的挑战，如图表和文档。

2、为了探索多模态大模型对图表和文档的智能理解，主要使用依赖ocr的方法和无ocr的方法，其中依赖ocr的方法包括：llava(large language and vision assistant：大型语言和视觉助手)，通过增强视觉指令模型读取图像中文本的能力，使用来自laion数据集的富文本图像和收集的有噪声指令数据，利用这两组数据相应地增加l

3、虽然通过设计各种模型架构来编码更强大的多模态特征或获取更准确的对齐策略已经取得了显著的改进，但这些方法常采用冻结的语言模型或视觉模型，存在由于参数数量有限或训练策略缺陷导致模型的性能受到限制。当前多模态大模型很难理解不同种类的图表和文档数据，且缺乏对图片中的区域准确定位的能力，因此仍然无法解锁更加多样的多模态能力。

技术实现思路

1、针对上述技术问题，本专利技术采用的技术方案为：

2、本专利技术实施例提供一种多模态大型语言模型训练方法，所述多模态大型语言模型至少包括大型语言模型和图文对齐模型，所述方法包括如下步骤：

3、s100，获取第一训练样本集和第二训练样本集；所述第一训练样本集为图文对数据集，包括多个第一训练样本对，每个第一训练样本对包含一个第一图像样本和对应的原始文本；所述第一图像样本仅包括自然图像；所述第二训练样本集包括多个第二训练样本对，每个第二训练样本对包含一个第二图像样本和对应的问答对文本，其中，第二图像样本中设置有目标检测框，所述第二图像样本至少包括文档、表格、图表和自然图像。

4、s200，对所述第一训练样本对进行预处理，得到对应的第一图像特征向量集合和第一文本特征向量集合，以及对所述第二训练样本对进行预处理，得到对应的第二图像特征向量集合和第二文本特征向量集合。

5、s300，分别对第一图像特征向量集合和第二图像特征向量集合进行压缩，得到对应的第一图像压缩特征向量集合和第二图像压缩特征向量集合。

6、s400，基于所述第一图像压缩特征向量集合和第一文本特征向量集合对图文对齐模型进行训练，得到训练后的图文对齐模型。

7、s500，将所述第二图像压缩特征向量集合和第二文本特征向量集合输入所述训练后的图文对齐模型中，得到对应的图文配对信息。

8、s600，基于所述第二图像压缩特征向量集合和所述图文配对信息对大型语言模型进行训练，得到训练后的大型语言模型。

9、s700，基于训练后的图文对齐模型和训练后的大型语言模型，得到训练好的多模态大型语言模型。

10、本专利技术实施例还提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。

11、本专利技术实施例还提供一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

12、本专利技术至少具有以下有益效果：

13、本专利技术实施例，首先利用图文对数据对图文对齐模型进行训练，在训练好之后，利用文档数据集、图表类数据集、表格类数据集和自然图像数据集对大型语言模型进行训练，使得训练后的模型能够理解不同种类的图表和文档数据，且具有对图片中的区域准确定位的能力，能够解锁更加多样的多模态能力。

14、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种多模态大型语言模型训练方法，其特征在于，所述多模态大型语言模型至少包括大型语言模型和图文对齐模型，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，任一图像样本的图像特征向量集合通过如下步骤获取得到：

3.根据权利要求2所述的方法，其特征在于，S10具体包括：

4.根据权利要求1所述的方法，其特征在于，在S300中，任一图像压缩特征向量集合对应的图像压缩特征向量集合通过如下步骤获取得到：

5.根据权利要求1所述的方法，其特征在于，所述图文对齐模型为Q-Former。

6.根据权利要求2所述的方法，其特征在于，在S14中，采用冻结图像编码器对每个图像块进行图像特征编码。

7.根据权利要求6所述的方法，其特征在于，所述冻结图像编码器为CLIP ViTL-14-336模型。

8.根据权利要求1所述的方法，其特征在于，所述大型语音模型为Qwen-7B模型。

9.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或

10.一种电子设备，其特征在于，包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。

...

【技术特征摘要】

1.一种多模态大型语言模型训练方法，其特征在于，所述多模态大型语言模型至少包括大型语言模型和图文对齐模型，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，任一图像样本的图像特征向量集合通过如下步骤获取得到：

3.根据权利要求2所述的方法，其特征在于，s10具体包括：

4.根据权利要求1所述的方法，其特征在于，在s300中，任一图像压缩特征向量集合对应的图像压缩特征向量集合通过如下步骤获取得到：

5.根据权利要求1所述的方法，其特征在于，所述图文对齐模型为q-former。

6.根据权利要求2所述的方法，其...

【专利技术属性】
技术研发人员：罗引，郝艳妮，陈博，马先钦，徐楠，曹家，王磊，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人