多模态模型训练方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：39036949 阅读：10 留言：0更新日期：2023-10-10 11:50

本申请提供了一种多模态模型训练方法、装置、电子设备及可读存储介质。所述方法包括：将所述第一图像样本输入至图像处理模型，获得图像处理模型输出的第一图像信息；将第一指令输入至多模态模型，训练多模态模型，第一指令包括第一图像信息和对应的文本描述；在多模态模型中，根据文本描述确定第一文本信息；对齐第一图像信息和第一文本信息后，根据对齐后第一图像信息及第一文本信息确定对应第一图像样本的第一文本答案。本申请通过增加第一图像信息和第一文本信息，以使多模态模型基于对比学习将第一图像信息和第一文本信息对齐，提高了视觉信息与语言信息对齐的速度，使得多模态模型降低对庞大的模型容量及数据量的需求。型降低对庞大的模型容量及数据量的需求。型降低对庞大的模型容量及数据量的需求。

全部详细技术资料下载

【技术实现步骤摘要】
多模态模型训练方法、装置、电子设备及可读存储介质

[0001]本申请属于深度学习
，尤其涉及一种多模态模型训练方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前，多模态模型是指利用多种不同的数据类型(例如文本、图像、语音、视频等)进行训练和推理的机器学习模型。它将不同模态的信息融合在一起，以更好地模拟人类的感知和认知过程。
[0003]多模态模型融合视觉信息和语言信息的方法为将视觉信息与语言信息在隐状态空间下进行信息对齐。但这种融合方法会在对齐视觉信息的时候产生推理损失。为了弥补对齐视觉信息的时候产生的推理损失，多模态模型需要庞大的模型容量及数据量。

技术实现思路

[0004]本申请实施例提供了一种多模态模型训练方法、装置、电子设备、可读存储介质及计算机程序产品，可以解决多模态模型为弥补对齐视觉信息产生的推理损失，多模态模型需要庞大的模型容量及数据量的问题。
[0005]第一方面，本申请实施例提供了一种多模态模型训练方法，包括：
[0006]获取图像描述样本，所述图像描述样本包括第一图像样本及对应的文本描述；
[0007]将所述第一图像样本输入至图像处理模型，获得所述图像处理模型输出的第一图像信息；
[0008]将第一指令输入至多模态模型，训练所述多模态模型，所述第一指令包括所述第一图像信息和对应的所述文本描述；
[0009]在所述多模态模型中，根据所述文本描述确定第一文本信息；
[0010]对齐所述第一图像信息和所述第一文本...

【技术保护点】

【技术特征摘要】
1.一种多模态模型训练方法，其特征在于，包括：获取图像描述样本，所述图像描述样本包括第一图像样本及对应的文本描述；将所述第一图像样本输入至图像处理模型，获得所述图像处理模型输出的第一图像信息；将第一指令输入至多模态模型，训练所述多模态模型，所述第一指令包括所述第一图像信息和对应的所述文本描述；在所述多模态模型中，根据所述文本描述确定第一文本信息；对齐所述第一图像信息和所述第一文本信息后，根据对齐后第一图像信息和所述第一文本信息确定对应所述第一图像样本的第一文本答案；当所述多模态模型的全局损失值小于预设阈值，获得已训练多模态模型，所述全局损失值包括所述第一图像信息与所述第一文本信息之间的对齐损失值及所述第一文本答案与所述文本描述之间的损失值。2.根据权利要求1所述的方法，其特征在于，所述将所述第一图像样本输入至图像处理模型，包括：将所述第一图像样本分成多个图像块；将所述第一图像样本的所述图像块和对应所述第一图像信息的令牌，输入至所述图像处理模型。3.根据权利要求1所述的方法，其特征在于，所述根据所述文本描述确定第一文本信息，包括：在所述多模态模型中，基于预设掩码，从所述第一指令中获取所述文本描述；对所述文本描述进行处理，获得所述第一文本信息。4.根据权利要求1所述的方法，其特征在于，所述对齐所述第一图像信息和所述第一文本信息，包括：根据所述第一图像信息和所述第一文本信息，构建样本矩阵，所述样本矩阵中对角线上元素为正样本，所述样本矩阵中其余元素为负样本，所述正样本包括所述第一图像信息和所述第一文本信息，所述负样本包括所述第一图像信息和篡改后第一文本信息；根据所述样本矩阵，将所述第一图像信息与所述第一文本信息进行对齐。5.根据权利要求4所述的方法，其特征在于：所述第一图像信息与所述第一文本信息之间的对齐损失值包括所述正样本的损失值和所述负样本的损失值。6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据对齐后第一图像信息和所述第一文本信息确定对应所述第一图像样本的第一文本答案之后，还包括：获取图像问答样本，所述图像问答样本包括第二图像样本和对应的问答信息；将所述第二图像样本输入至所述图像处理模型，...

【专利技术属性】
技术研发人员：赵哲一，于非，贺颖，孙喜龙，施斯，陈加壹，
申请(专利权)人：人工智能与数字经济广东省实验室深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人