图文匹配模型的训练方法及装置制造方法及图纸

技术编号:35498712 阅读:14 留言:0更新日期:2022-11-05 17:02
本发明专利技术公开了一种图文匹配模型的训练方法及装置,该方法包括:获取用于图文匹配模型训练的训练数据集,训练数据集中包括多个文本数据和多个图像数据,将每个文本数据和每个图像数据分别输入至目标文本模型以及目标图像模型中得到文本编码向量和图像编码向量,并确定初始训练用图文数据组,将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,基于初始训练数据输出结果,确定初始图文匹配模型的初始损失信息,若初始损失信息满足训练完成条件,则将初始图文匹配模型确定为目标图文匹配模型。可见,实施本发明专利技术能够提高图文匹配模型训练的效率,还能够基于图文匹配模型实现图文互搜以及多模态数据分类。多模态数据分类。多模态数据分类。

【技术实现步骤摘要】
图文匹配模型的训练方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种图文匹配模型的训练方法及装置。

技术介绍

[0002]在实际生活中,人工智能已经广泛应用于人们的日常生活中。在深度学习兴起之初,大多数模型只专注于计算机视觉或自然语言处理等专一的领域,并没有深入挖掘这两者之间的联系,并且,目前对于模型的训练通常是基于人工标注的数据集进行有监督的训练,不仅耗费人力成本,还耗费许多时间成本,使得模型训练的效率低下。可见,如何对图文匹配模型进行训练以提高模型训练的效率是本领域技术人员尚待解决的技术问题。

技术实现思路

[0003]本专利技术所要解决的技术问题在于,提供一种图文匹配模型的训练方法及装置,能够有利于提高图文匹配模型训练的效率,还能够基于训练所得的图文匹配模型实现图文互搜以及多模态数据分类。
[0004]为了解决上述技术问题,本专利技术第一方面公开了一种图文匹配模型的训练方法,所述方法包括:获取用于图文匹配模型训练的训练数据集,所述训练数据集中包括多个文本数据和多个图像数据;针对每个所述文本数据,将该文本数据输入至目标文本模型,得到文本编码向量,以及针对每个所述图像数据,将该图像数据输入至目标图像模型,得到图像编码向量;针对每个所述文本编码向量,在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量,并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组;将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,基于所述初始训练数据输出结果,确定所述初始图文匹配模型的初始损失信息,所述初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种;判断所述初始损失信息是否满足训练完成条件,当判断结果为是时,将所述初始图文匹配模型确定为目标图文匹配模型。
[0005]作为一种可选的实施方式,在本专利技术第一方面中,在获取用于图文匹配模型训练的训练数据集之后,在针对每个所述文本数据,将该文本数据输入至目标文本模型,得到文本编码向量,以及针对每个所述图像数据,将该图像数据输入至目标图像模型,得到图像编码向量之前,所述方法还包括:针对所述训练数据集中的每个所述文本数据,对该文本数据执行特征掩盖操作,得到特征掩盖文本数据;以及,所述针对每个所述文本数据,将该文本数据输入至目标文本模型,得到文本
编码向量,包括:针对每个所述特征掩盖文本数据,将该特征掩盖文本数据输入至目标文本模型,得到文本编码向量,其中,所述文本编码向量包括该特征掩盖文本数据的预测文本数据。
[0006]作为一种可选的实施方式,在本专利技术第一方面中,所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,包括:针对每个所述初始训练用图文数据组,将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作,得到初始图文输入数据组;针对每个所述初始图文输入数据组,将该初始图文输入数据组输入至初始图文匹配模型,得到初始图文数据组输出结果;根据所有所述初始图文数据组输出结果,确定初始训练数据输出结果;其中,所述初始图文数据组输出结果包括多个初始图文输出数据组,所述初始图文输出数据组的数量与所述初始训练用图文数据组的数量相等,每个所述初始图文输出数据组包括文本数据输出结果以及图像数据输出结果。
[0007]作为一种可选的实施方式,在本专利技术第一方面中,所述针对每个所述文本编码向量,在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量,并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后,所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果之前,所述方法还包括:从所有所述初始训练用图文数据组中确定出至少两个第一训练用图文数据组,将所有所述第一训练用图文数据组中所包括的所述文本数据与所述图像数据重新组合,得到第二训练用图文数据组,每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练用图文数据组中所包括的数据不均相同;将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组;所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,包括:将所有所述目标训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果。
[0008]作为一种可选的实施方式,在本专利技术第一方面中,当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时,所述基于所述初始训练数据输出结果,确定所述初始图文匹配模型的初始损失信息,包括:针对每个所述文本编码向量,从所述训练数据集中确定出与该文本编码向量相匹配的目标文本数据,并根据该文本编码向量以及所述目标文本数据,确定该文本编码向量的文本重建损失信息,根据所有所述文本编码向量的文本重建损失信息,确定文本重建损失信息;针对每个所述初始图文输出数据组中的所述文本数据输出结果,计算该文本数据输出结果与每个所述图像数据输出结果之间的特征匹配参数,得到每个所述文本数据输出结果与每个所述图像数据输出结果之间的特征匹配参数,根据所有所述特征匹配参数确定
所述初始图文匹配模型的对比学习损失信息;根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组,确定所述初始图文匹配模型的图文匹配损失信息;基于所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息,确定所述初始图文匹配模型的初始损失信息。
[0009]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组,确定所述初始图文匹配模型的图文匹配损失信息,包括:基于每个所述初始图文数据组输出结果中所包括的所述文本数据输出结果以及所述图像数据输出结果,从所述初始图文数据组输出结果中所包括的所有所述初始图文数据组中确定出与所述初始训练用图文数据组相同的第一输出图文数据组,并将除所有所述第一输出图文数据组外的所有所述输出图文数据组确定为第二输出图文数据组;根据所有所述第一输出图文数据组、所有所述第二输出图文数据组以及所有所述初始训练用图文数据组,确定所述初始图文匹配模型的输出数据匹配度;根据所述输出数据匹配度以及预先确定出的图文匹配函数,确定所述初始图文匹配模型的图文匹配损失信息。
[0010]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息,包括:针对每个所述初始图文输出数据组中的所述文本数据输出结果,基于所述初始训练用图文数据组,在所述初始训练用图文数据组中确定与该文本数据输出结果相匹配的关键图像数据输出结果,并确定该文本数据输出结果与该关键图像数据输出结果之间的第一匹配信息,以及确定该文本数据输出结果与除该关键图像数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文匹配模型的训练方法,其特征在于,所述方法包括:获取用于图文匹配模型训练的训练数据集,所述训练数据集中包括多个文本数据和多个图像数据;针对每个所述文本数据,将该文本数据输入至目标文本模型,得到文本编码向量,以及针对每个所述图像数据,将该图像数据输入至目标图像模型,得到图像编码向量;针对每个所述文本编码向量,在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量,并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组;将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,基于所述初始训练数据输出结果,确定所述初始图文匹配模型的初始损失信息,所述初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种;判断所述初始损失信息是否满足训练完成条件,当判断结果为是时,将所述初始图文匹配模型确定为目标图文匹配模型。2.根据权利要求1所述的图文匹配模型的训练方法,其特征在于,在获取用于图文匹配模型训练的训练数据集之后,在针对每个所述文本数据,将该文本数据输入至目标文本模型,得到文本编码向量,以及针对每个所述图像数据,将该图像数据输入至目标图像模型,得到图像编码向量之前,所述方法还包括:针对所述训练数据集中的每个所述文本数据,对该文本数据执行特征掩盖操作,得到特征掩盖文本数据;以及,所述针对每个所述文本数据,将该文本数据输入至目标文本模型,得到文本编码向量,包括:针对每个所述特征掩盖文本数据,将该特征掩盖文本数据输入至目标文本模型,得到文本编码向量,其中,所述文本编码向量包括该特征掩盖文本数据的预测文本数据。3.根据权利要求2所述的图文匹配模型的训练方法,其特征在于,所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,包括:针对每个所述初始训练用图文数据组,将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作,得到初始图文输入数据组;针对每个所述初始图文输入数据组,将该初始图文输入数据组输入至初始图文匹配模型,得到初始图文数据组输出结果;根据所有所述初始图文数据组输出结果,确定初始训练数据输出结果;其中,所述初始图文数据组输出结果包括多个初始图文输出数据组,所述初始图文输出数据组的数量与所述初始训练用图文数据组的数量相等,每个所述初始图文输出数据组包括文本数据输出结果以及图像数据输出结果。4.根据权利要求3所述的图文匹配模型的训练方法,其特征在于,所述针对每个所述文本编码向量,在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量,并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后,所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹
配模型,得到初始训练数据输出结果之前,所述方法还包括:从所有所述初始训练用图文数据组中确定出至少两个第一训练用图文数据组,将所有所述第一训练用图文数据组中所包括的所述文本数据与所述图像数据重新组合,得到第二训练用图文数据组,每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练用图文数据组中所包括的数据不均相同;将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组;所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果,包括:将所有所述目标训练用图文数据组输入至预先设定的初始图文匹配模型,得到初始训练数据输出结果。5.根据权利要求4所述的图文匹配模型的训练方法,其特征在于,当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时,所述基于所述初始训练数据输出结果,确定所述初始图文匹配模型的初始损失信息,包括:针对每个所述文本编码向量,从所述训练数据集中确定出与该文本编码向...

【专利技术属性】
技术研发人员:陈畅新李展铿
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1