一种多模态模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:27603376 阅读:14 留言:0更新日期:2021-03-10 10:26
本申请公开了一种多模态模型训练方法,该方法包括以下步骤:获得训练样本集,依次使用训练样本集中的每个训练样本对对多模态模型进行多轮训练,针对任意一个训练样本对,在使用该训练样本对训练的过程中,先获得目标视觉样本的图像特征,再确定是否需要对目标原始文本进行回译处理,如果需要,则进行相应的回译处理,获得目标回译文本,并获得目标回译文本的文本特征,基于图像特征和文本特征,对多模态模型进行训练。应用本申请所提供的技术方案,使得训练样本对的数量得以增加,可以加快模型收敛速度,有效避免出现过拟合现象,提高多模态模型鲁棒性。本申请还公开了一种多模态模型训练装置、设备及存储介质,具有相应技术效果。效果。效果。

【技术实现步骤摘要】
一种多模态模型训练方法、装置、设备及存储介质


[0001]本申请涉及计算机应用
,特别是涉及一种多模态模型训练方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的快速发展,多模态学习逐渐成为新的研究热点。近年来,深度学习的普及使得基于机器学习的人工智能取得了长足的发展。例如,卷积神经网络的广泛应用,使得计算机视觉领域的目标检测、语义分割、模式识别等方向均取得了较大进展;transformer编码器的专利技术,使得自然语言处理领域的机器翻译、文本纠错、文本搜索等任务都取得了较大提高。这些领域的快速发展使得对于多模态学习领域的关注越来越多。一方面,是因为人类对世界的理解是多个维度的,通常用眼睛看、用耳朵听、用鼻子闻、用身体去感知,并通过大脑综合处理这些复杂的信息,实现对客观事物的感知、理解和推理,多模态学习可以使计算机更好地模仿人类的行为,模拟人的感知能力。另一方面,诸如计算机视觉、自然语言处理等单一模态领域的迅猛发展,也为多模态学习提供了强大的理论和实践基础。
[0003]多模态学习的输入包括视觉和文本两个模态,计算机模型通过同时学习这两个模态的样本获取感知和理解的能力。其中,视觉模态包括图片、视频等;文本模态包括各种语言的摘要文档、问答、对话等。典型的视觉-文本多模态学习课题如VQA(Visual Question Answering,视觉问答),旨在使计算机获得根据图片和问句内容推理答案的能力;再如VLM(Visual-Language Matching,视觉语言匹配),旨在使计算机获得判断图文是否匹配的能力。
[0004]多模态学习的过程也即多模态模型训练的过程,目前,对于多模态模型训练,存在的问题是,训练样本的数量较少,使得模型难以收敛,而且,训练样本分布偏差较大,容易出现模型过拟合现象。

技术实现思路

[0005]本申请的目的是提供一种多模态模型训练方法、装置、设备及存储介质,以增加训练样本对数量,加快模型收敛速度,同时可以有效避免出现过拟合现象,提高模型鲁棒性。
[0006]为解决上述技术问题,本申请提供如下技术方案:
[0007]一种多模态模型训练方法,包括:
[0008]获得训练样本集,所述训练样本集中包含多个训练样本对,每个训练样本对包含一个视觉样本和对应的原始文本;
[0009]依次使用所述训练样本集中的每个训练样本对,对多模态模型进行多轮训练,直至达到设定结束条件;
[0010]针对所述训练样本集中的任意一个训练样本对,每次均通过以下步骤使用该训练样本对对所述多模态模型进行训练:
[0011]获得该训练样本对包含的目标视觉样本的图像特征;
[0012]确定是否需要对该训练样本对包含的目标原始文本进行回译处理;
[0013]如果是,则对所述目标原始文本进行回译处理,获得目标回译文本;
[0014]获得所述目标回译文本的文本特征;
[0015]基于所述目标视觉样本的图像特征和所述目标回译文本的文本特征,对所述多模态模型进行训练。
[0016]在本申请的一种具体实施方式中,所述对所述目标原始文本进行回译处理,包括:
[0017]通过回译模块对所述目标原始文本进行回译处理;
[0018]其中,所述回译模块包括顺序连接的至少两个翻译组件,所述至少两个翻译组件中的第一个翻译组件的输入文本为所述目标原始文本,最后一个翻译组件的输出文本与所述目标原始文本的语言相同。
[0019]在本申请的一种具体实施方式中,在通过回译模块对所述目标原始文本进行回译处理的过程中,通过以下步骤确定所述回译模块包括的每个翻译组件的输入文本:
[0020]将所述目标原始文本确定为所述回译模块包括的第一个翻译组件的输入文本;
[0021]针对所述回译模块包括的除第一个翻译组件外的其他任意一个翻译组件,基于该翻译组件的前一个翻译组件的输出文本,确定该翻译组件的输入文本。
[0022]在本申请的一种具体实施方式中,所述基于该翻译组件的前一个翻译组件的输出文本,确定该翻译组件的输入文本,包括:
[0023]计算该翻译组件的前一个翻译组件的每个输出文本的损失率;
[0024]按照损失率的大小,在该翻译组件的前一个翻译组件的输出文本中选择部分文本,确定为该翻译组件的输入文本。
[0025]在本申请的一种具体实施方式中,所述按照损失率的大小,在该翻译组件的前一个翻译组件的输出文本中选择部分输出文本,确定为该翻译组件的输入文本,包括:
[0026]将该翻译组件的前一个翻译组件的损失率最小的N个输出文本确定为该翻译组件的输入文本;
[0027]或者,将该翻译组件的前一个翻译组件的损失率小于预设损失率阈值的输出文本,确定为该翻译组件的输入文本。
[0028]在本申请的一种具体实施方式中,所述回译模块包括的每个翻译组件分别包含多个翻译模型。
[0029]在本申请的一种具体实施方式中,所述对所述目标原始文本进行回译处理,获得目标回译文本,包括:
[0030]对所述目标原始文本进行回译处理,获得多个回译后文本;
[0031]在所述多个回译后文本中随机选择一个文本,确定为目标回译文本。
[0032]在本申请的一种具体实施方式中,所述确定是否需要对该训练样本对包含的目标原始文本进行回译处理,包括:
[0033]根据预先设定的回译参数,确定是否需要对该训练样本对包含的目标原始文本进行回译处理。
[0034]在本申请的一种具体实施方式中,在确定不需要对所述目标原始文本进行回译处理的情况下,还包括:
[0035]获得所述目标原始文本的文本特征;
[0036]基于所述目标视觉样本的图像特征和所述目标原始文本的文本特征,对所述多模态模型进行训练。
[0037]一种多模态模型训练装置,包括:
[0038]训练数据集获得单元,用于获得训练样本集,所述训练样本集中包含多个训练样本对,每个训练样本对包含一个视觉样本和对应的原始文本;
[0039]多模态模型训练单元,用于依次使用所述训练样本集中的每个训练样本对,对多模态模型进行多轮训练,直至达到设定结束条件;针对所述训练样本集中的任意一个训练样本对,每次均通过以下子单元使用该训练样本对对所述多模态模型进行训练:
[0040]图像特征获得子单元,用于获得该训练样本对包含的目标视觉样本的图像特征;
[0041]回译处理判定子单元,用于确定是否需要对该训练样本对包含的目标原始文本进行回译处理;如果是,则触发回译处理子单元;
[0042]所述回译处理子单元,用于对所述目标原始文本进行回译处理,获得目标回译文本;
[0043]文本特征获得子单元,用于获得所述目标回译文本的文本特征;
[0044]多模态模型训练子单元,用于基于所述目标视觉样本的图像特征和所述目标回译文本的文本特征,对所述多模态模型进行训练。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态模型训练方法,其特征在于,包括:获得训练样本集,所述训练样本集中包含多个训练样本对,每个训练样本对包含一个视觉样本和对应的原始文本;依次使用所述训练样本集中的每个训练样本对,对多模态模型进行多轮训练,直至达到设定结束条件;针对所述训练样本集中的任意一个训练样本对,每次均通过以下步骤使用该训练样本对对所述多模态模型进行训练:获得该训练样本对包含的目标视觉样本的图像特征;确定是否需要对该训练样本对包含的目标原始文本进行回译处理;如果是,则对所述目标原始文本进行回译处理,获得目标回译文本;获得所述目标回译文本的文本特征;基于所述目标视觉样本的图像特征和所述目标回译文本的文本特征,对所述多模态模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述对所述目标原始文本进行回译处理,包括:通过回译模块对所述目标原始文本进行回译处理;其中,所述回译模块包括顺序连接的至少两个翻译组件,所述至少两个翻译组件中的第一个翻译组件的输入文本为所述目标原始文本,最后一个翻译组件的输出文本与所述目标原始文本的语言相同。3.根据权利要求2所述的方法,其特征在于,在通过回译模块对所述目标原始文本进行回译处理的过程中,通过以下步骤确定所述回译模块包括的每个翻译组件的输入文本:将所述目标原始文本确定为所述回译模块包括的第一个翻译组件的输入文本;针对所述回译模块包括的除第一个翻译组件外的其他任意一个翻译组件,基于该翻译组件的前一个翻译组件的输出文本,确定该翻译组件的输入文本。4.根据权利要求3所述的方法,其特征在于,所述基于该翻译组件的前一个翻译组件的输出文本,确定该翻译组件的输入文本,包括:计算该翻译组件的前一个翻译组件的每个输出文本的损失率;按照损失率的大小,在该翻译组件的前一个翻译组件的输出文本中选择部分文本,确定为该翻译组件的输入文本。5.根据权利要求4所述的方法,其特征在于,所述按照损失率的大小,在该翻译组件的前一个翻译组件的输出文本中选择部分输出文本,确定为该翻译组件的输入文本,包括:将该翻译组件的前一个翻译组件的损失率最小的N个输出文本确定为该翻译组件的输入文本;或者,将该翻译组件的前一个翻译组件的损失率小于预设损失率阈值的输出文本,确定为该翻译组件的输入文本。6.根据权...

【专利技术属性】
技术研发人员:李晓川范宝余张润泽
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1