多模态模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40960769 阅读：2 留言：0更新日期：2024-04-18 20:39

本公开提供了一种多模态模型训练方法、装置、电子设备及存储介质。本公开多模态模型训练方法包括：接收用户输入的目标任务；响应于接收的目标任务，获取与目标任务对应的样本训练集，其中，样本训练集包括图像样本和与图像样本对应的文本样本；将图像样本和文本样本输入多模态预训练模型，得到与目标任务对应的输出结果；基于输出结果和图像样本以及文本样本对多模态预训练模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及一种多模态模型训练方法、装置、电子设备及存储介质。

技术介绍

1、随着人工智能技术的发展，出现了对图像进行视觉维度、语言维度等多个维度任务的需求，为了实现该多维度任务，需要建立能够对图像和文本进行处理的模型。

2、相关技术中先构建用于训练大语言模型的图片-声音-文本三元组数据集；构建多模态大语言模型，多模态大语言模型包括经过预训练的大语言模型、交叉注意力模型、视觉模型和声音模型；在所述大语言模型的输出层嵌入多个并行的lora插件，并初始化lora插件和门控选择器；基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型，以使多模态大语言模型具有图片模态和声音模态数据的生成能力；微调多模态大语言模型，以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容。

3、但是上述方法占用的显存往往都比较大，同时在输出方面往往会比较单调，只能是单独生成图片或者文本的内容。

技术实现思路

1、为了解决上述技术问题中的至少一个，本公开提供了一种多模态模型训练方法、装置、电子设备及存储介质。

2、一方面，提供了一种多模态模型训练方法，包括：

3、接收用户输入的目标任务；

4、响应于接收的目标任务，获取与所述目标任务对应的样本训练集，其中，所述样本训练集包括图像样本和与所述图像样本对应的文本样本；

5、将所述图像样本和所述文本样本输入多模态预训练模型，得到与所述目标任务对应的输出结果；

6、基于

7、根据本公开一种优选的实施方式，将所述图像样本和所述文本样本输入多模态预训练模型，得到与所述目标任务对应的输出结果，包括：

8、将所述图像样本输入多模态预训练模型，得到与所述目标任务对应的第一输出结果；

9、基于所述第一输出结果更新所述多模态预训练模型的权重；

10、将所述图像样本与所述文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果。

11、根据本公开一种优选的实施方式，将所述图像样本输入多模态预训练模型，得到与所述目标任务对应的第一输出结果，包括：

12、获取所述图像样本的特征向量，将所述图像样本的特征向量作为第一输入信息输入多模态预训练模型包括的第一子模块中，得到第一输出信息；

13、基于所述第一输出信息和所述第一输入信息的交叉熵得到第一损失值，将所述第一损失值作为所述第一输出结果。

14、根据本公开一种优选的实施方式，获取所述图像样本的特征向量，将所述图像样本的特征向量作为第一输入信息输入多模态预训练模型包括的第一子模块中，得到第一输出信息，包括：

15、将所述图像样本中预设区域进行遮盖，获取遮盖后图像样本的特征向量，将所述遮盖后图像样本的特征向量作为第一输入信息输入多模态预训练模型包括的第一子模块中，得到第一输出信息。

16、根据本公开一种优选的实施方式，将所述图像样本与所述文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果，包括：

17、将所述图像样本与所述文本样本处理至同一特征空间，在所述同一特征空间中对所述图像样本与所述文本样本进行关联；

18、将关联后的图像样本与文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果。

19、根据本公开一种优选的实施方式，将关联后的图像样本与文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果，包括：

20、将关联后的图像样本输入权重更新后的多模态预训练模型包括的第二子模块中，得到与所述目标任务对应的图像样本输出结果；

21、将关联后的文本样本输入权重更新后的多模态预训练模型包括的第三子模块中，得到与所述目标任务对应的文本样本输出结果；

22、将所述图像样本输出子结果与所述文本样本输出结果作为所述第二输出结果。

23、根据本公开一种优选的实施方式，将关联后的图像样本输入权重更新后的多模态预训练模型包括的第二子模块中，得到与所述目标任务对应的图像样本输出结果，包括：

24、将关联后的图像样本作为第二输入信息输入权重更新后的多模态预训练模型包括的第二子模块中，得到第二输出信息；

25、基于所述第二输出信息和所述第二输入信息的交叉熵得到所述图像样本输出结果。

26、根据本公开一种优选的实施方式，将关联后的文本样本输入权重更新后的多模态预训练模型包括的第三子模块中，得到与所述目标任务对应的文本样本输出结果，包括：

27、将关联后的文本样本作为第三输入信息输入权重更新后的多模态预训练模型包括的第三子模块中，得到第三输出信息；

28、基于所述第三输出信息和所述第三输入信息的交叉熵得到所述图像样本输出结果。

29、根据本公开一种优选的实施方式，将所述图像样本与所述文本样本处理至同一特征空间，在所述同一特征空间中对所述图像样本与所述文本样本进行关联，包括：

30、基于所述图像样本的特征标签将文本样本进行标签化，使标签化后的文本样本与所述图像样本位于同一特征空间；

31、基于文本样本的标签与所述图像样本进行关联。

32、根据本公开一种优选的实施方式，将关联后的图像样本与文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果，还包括：

33、基于所述图像样本的特征标签以及标签化后的文本样本对图像样本和文本样本进行分类；

34、将分类后的图像样本和文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果。

35、另一方面，本公开实施方式提供了一种多模态模型训练装置，包括：

36、接收模块，接收模块接收用户输入的目标任务；

37、第一获取模块，第一获取模块响应于接收的目标任务，获取与所述目标任务对应的样本训练集，其中，所述样本训练集包括图像样本和与所述图像样本对应的文本样本；

38、第二获取模块，第二获取模块将所述图像样本和所述文本样本输入多模态预训练模型，得到与所述目标任务对应的输出结果；

39、训练模块，训练模块基于所述输出结果和所述图像样本以及所述文本样本对所述多模态预训练模型进行训练。

40、还一方面，本公开实施方式提供了一种电子设备，包括：

41、存储器，所述存储器存储执行指令；以及

42、处理器，所述处理器执行所述存储器存储的执行指令，实现上述任一项所述的方法。

43、再一方面，本公开实施方式提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时实现上述任一项所述的方法。

本文档来自技高网...

【技术保护点】

1.一种多模态模型训练方法，其特征在于，包括：

2.根据权利要求1所述的多模态模型训练方法，其特征在于，将所述图像样本和所述文本样本输入多模态预训练模型，得到与所述目标任务对应的输出结果，包括：

3.根据权利要求2所述的多模态模型训练方法，其特征在于，将所述图像样本输入多模态预训练模型，得到与所述目标任务对应的第一输出结果，包括：

4.根据权利要求3所述的多模态模型训练方法，其特征在于，获取所述图像样本的特征向量，将所述图像样本的特征向量作为第一输入信息输入多模态预训练模型包括的第一子模块中，得到第一输出信息，包括：

5.根据权利要求2所述的多模态模型训练方法，其特征在于，将所述图像样本与所述文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果，包括：

6.根据权利要求5所述的多模态模型训练方法，其特征在于，将关联后的图像样本与文本样本输入权重更新后的多模态预训练模型，得到与所述目标任务对应的第二输出结果，包括：

7.根据权利要求5所述的多模态模型训练方法，其特征在于，将所述图像样本

8.一种多模态模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时实现如权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种多模态模型训练方法，其特征在于，包括：

3.根据权利要求2所述的多模态模型训练方法，其特征在于，将所述图像样本输入多模态预训练模型，得到与所述目标任务对应的第一输出结果，包括：

5.根据权利要求2所述的多模态模型训练方法，其特征在于，将所述图像样本与所述文本样本输入权重更新后的多模...

【专利技术属性】
技术研发人员：董立成，李媛媛，
申请(专利权)人：出门问问苏州信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人