多模态模型训练方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:39036949 阅读:10 留言:0更新日期:2023-10-10 11:50
本申请提供了一种多模态模型训练方法、装置、电子设备及可读存储介质。所述方法包括:将所述第一图像样本输入至图像处理模型,获得图像处理模型输出的第一图像信息;将第一指令输入至多模态模型,训练多模态模型,第一指令包括第一图像信息和对应的文本描述;在多模态模型中,根据文本描述确定第一文本信息;对齐第一图像信息和第一文本信息后,根据对齐后第一图像信息及第一文本信息确定对应第一图像样本的第一文本答案。本申请通过增加第一图像信息和第一文本信息,以使多模态模型基于对比学习将第一图像信息和第一文本信息对齐,提高了视觉信息与语言信息对齐的速度,使得多模态模型降低对庞大的模型容量及数据量的需求。型降低对庞大的模型容量及数据量的需求。型降低对庞大的模型容量及数据量的需求。

【技术实现步骤摘要】
多模态模型训练方法、装置、电子设备及可读存储介质


[0001]本申请属于深度学习
,尤其涉及一种多模态模型训练方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前,多模态模型是指利用多种不同的数据类型(例如文本、图像、语音、视频等)进行训练和推理的机器学习模型。它将不同模态的信息融合在一起,以更好地模拟人类的感知和认知过程。
[0003]多模态模型融合视觉信息和语言信息的方法为将视觉信息与语言信息在隐状态空间下进行信息对齐。但这种融合方法会在对齐视觉信息的时候产生推理损失。为了弥补对齐视觉信息的时候产生的推理损失,多模态模型需要庞大的模型容量及数据量。

技术实现思路

[0004]本申请实施例提供了一种多模态模型训练方法、装置、电子设备、可读存储介质及计算机程序产品,可以解决多模态模型为弥补对齐视觉信息产生的推理损失,多模态模型需要庞大的模型容量及数据量的问题。
[0005]第一方面,本申请实施例提供了一种多模态模型训练方法,包括:
[0006]获取图像描述样本,所述图像描述样本包括第一图像样本及对应的文本描述;
[0007]将所述第一图像样本输入至图像处理模型,获得所述图像处理模型输出的第一图像信息;
[0008]将第一指令输入至多模态模型,训练所述多模态模型,所述第一指令包括所述第一图像信息和对应的所述文本描述;
[0009]在所述多模态模型中,根据所述文本描述确定第一文本信息;
[0010]对齐所述第一图像信息和所述第一文本信息后,根据对齐后第一图像信息和所述第一文本信息确定对应所述第一图像样本的第一文本答案;
[0011]当所述多模态模型的全局损失值小于预设阈值,获得已训练多模态模型,所述全局损失值包括所述第一图像信息与所述第一文本信息之间的对齐损失值及所述第一文本答案与所述文本描述之间的损失值。
[0012]在一个实施例中,所述将所述第一图像样本输入至图像处理模型,包括:
[0013]将所述第一图像样本分成多个图像块;
[0014]将所述第一图像样本的所述图像块和对应所述第一图像信息的令牌,输入至所述图像处理模型。
[0015]在一个实施例中,所述根据所述文本描述确定第一文本信息,包括:
[0016]在所述多模态模型中,基于预设掩码,从所述第一指令中获取所述文本描述;
[0017]对所述文本描述进行处理,获得所述第一文本信息。
[0018]在一个实施例中,所述对齐所述第一图像信息和所述第一文本信息,包括:
[0019]根据所述第一图像信息和所述第一文本信息,构建样本矩阵,所述样本矩阵中对角线上元素为正样本,所述样本矩阵中其余元素为负样本,所述正样本包括所述第一图像信息和所述第一文本信息,所述负样本包括所述第一图像信息和篡改后第一文本信息;
[0020]根据所述样本矩阵,将所述第一图像信息与所述第一文本信息进行对齐。
[0021]在一个实施例中,所述第一图像信息与所述第一文本信息之间的对齐损失值包括所述正样本的损失值和所述负样本的损失值。
[0022]在一个实施例中,所述根据对齐后第一图像信息和所述第一文本信息确定对应所述第一图像样本的第一文本答案之后,还包括:
[0023]获取图像问答样本,所述图像问答样本包括第二图像样本和对应的问答信息;
[0024]将所述第二图像样本输入至所述图像处理模型,获得所述图像处理模型输出的第二图像信息;
[0025]将第二指令输入至所述多模态模型,训练所述多模态模型,所述第二指令包括所述第二图像信息和对应的问答信息;
[0026]在所述多模态模型中,根据所述问答信息确定第二文本信息;
[0027]根据所述第二图像信息和所述第二文本信息,确定对应所述第二图像样本的第二文本答案;
[0028]其中,所述全局损失值还包括所述第二文本答案与答案样本之间的损失值,所述问答信息包括问题样本和所述答案样本。
[0029]第二方面,本申请实施例提供了一种智能体控制方法,包括:
[0030]获取待处理图像及对应的待处理文本描述;
[0031]将所述待处理图像和所述待处理文本描述输入至已训练多模态模型,获得所述已训练多模态模型输出的第三文本答案,所述已训练多模态模型是通过第一方面中任一项所述的方法训练获得的;
[0032]利用所述第三文本答案,指示LLM从基元动作集的各基元动作中选取待执行动作;
[0033]向智能体发送所述待执行动作,以使所述智能体执行所述待执行动作。
[0034]第三方面,本申请实施例提供了一种多模态模型训练装置,包括:
[0035]获取模块,用于获取图像描述样本,所述图像描述样本包括第一图像样本及对应的文本描述;
[0036]图像处理模块,用于将所述第一图像样本输入至图像处理模型,获得所述图像处理模型输出的第一图像信息;
[0037]训练模块,用于将第一指令输入至多模态模型,训练所述多模态模型,所述第一指令包括所述第一图像信息和对应的所述文本描述;
[0038]还用于在所述多模态模型中,根据所述文本描述确定第一文本信息;
[0039]还用于对齐所述第一图像信息和所述第一文本信息后,根据对齐后第一图像信息及所述第一文本信息确定对应所述第一图像样本的第一文本答案;
[0040]还用于当所述多模态模型的全局损失值小于预设阈值,获得已训练多模态模型,所述全局损失值包括所述第一图像信息与所述第一文本信息之间的对齐损失值及所述第一文本答案与所述文本描述之间的损失值。
[0041]第四方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所
述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面或第二方面中任一项所述的方法。
[0042]第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面或第二方面中任一项所述的方法。
[0043]第六方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面或第二方面中任一项所述的方法。
[0044]本申请实施例与现有技术相比存在的有益效果是:
[0045]本申请实施例包括将所述第一图像样本输入至图像处理模型,获得图像处理模型输出的第一图像信息;将第一指令输入至多模态模型,训练多模态模型,第一指令包括第一图像信息和对应的文本描述;在多模态模型中,根据文本描述确定第一文本信息;对齐第一图像信息和第一文本信息后,根据对齐后第一图像信息及第一文本信息确定对应第一图像样本的第一文本答案,通过增加第一图像信息和第一文本信息,以使多模态模型基于对比学习将第一图像信息和第一文本信息对齐,提高了视觉信息与语言信息对齐的速度,使得多模态模型降低对庞本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态模型训练方法,其特征在于,包括:获取图像描述样本,所述图像描述样本包括第一图像样本及对应的文本描述;将所述第一图像样本输入至图像处理模型,获得所述图像处理模型输出的第一图像信息;将第一指令输入至多模态模型,训练所述多模态模型,所述第一指令包括所述第一图像信息和对应的所述文本描述;在所述多模态模型中,根据所述文本描述确定第一文本信息;对齐所述第一图像信息和所述第一文本信息后,根据对齐后第一图像信息和所述第一文本信息确定对应所述第一图像样本的第一文本答案;当所述多模态模型的全局损失值小于预设阈值,获得已训练多模态模型,所述全局损失值包括所述第一图像信息与所述第一文本信息之间的对齐损失值及所述第一文本答案与所述文本描述之间的损失值。2.根据权利要求1所述的方法,其特征在于,所述将所述第一图像样本输入至图像处理模型,包括:将所述第一图像样本分成多个图像块;将所述第一图像样本的所述图像块和对应所述第一图像信息的令牌,输入至所述图像处理模型。3.根据权利要求1所述的方法,其特征在于,所述根据所述文本描述确定第一文本信息,包括:在所述多模态模型中,基于预设掩码,从所述第一指令中获取所述文本描述;对所述文本描述进行处理,获得所述第一文本信息。4.根据权利要求1所述的方法,其特征在于,所述对齐所述第一图像信息和所述第一文本信息,包括:根据所述第一图像信息和所述第一文本信息,构建样本矩阵,所述样本矩阵中对角线上元素为正样本,所述样本矩阵中其余元素为负样本,所述正样本包括所述第一图像信息和所述第一文本信息,所述负样本包括所述第一图像信息和篡改后第一文本信息;根据所述样本矩阵,将所述第一图像信息与所述第一文本信息进行对齐。5.根据权利要求4所述的方法,其特征在于:所述第一图像信息与所述第一文本信息之间的对齐损失值包括所述正样本的损失值和所述负样本的损失值。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据对齐后第一图像信息和所述第一文本信息确定对应所述第一图像样本的第一文本答案之后,还包括:获取图像问答样本,所述图像问答样本包括第二图像样本和对应的问答信息;将所述第二图像样本输入至所述图像处理模型,...

【专利技术属性】
技术研发人员:赵哲一于非贺颖孙喜龙施斯陈加壹
申请(专利权)人:人工智能与数字经济广东省实验室深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1