图文匹配模型的训练方法及装置制造方法及图纸

技术编号：35498712 阅读：14 留言：0更新日期：2022-11-05 17:02

本发明专利技术公开了一种图文匹配模型的训练方法及装置，该方法包括：获取用于图文匹配模型训练的训练数据集，训练数据集中包括多个文本数据和多个图像数据，将每个文本数据和每个图像数据分别输入至目标文本模型以及目标图像模型中得到文本编码向量和图像编码向量，并确定初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，若初始损失信息满足训练完成条件，则将初始图文匹配模型确定为目标图文匹配模型。可见，实施本发明专利技术能够提高图文匹配模型训练的效率，还能够基于图文匹配模型实现图文互搜以及多模态数据分类。多模态数据分类。多模态数据分类。

全部详细技术资料下载

【技术实现步骤摘要】
图文匹配模型的训练方法及装置

[0001]本专利技术涉及人工智能
，尤其涉及一种图文匹配模型的训练方法及装置。

技术介绍

[0002]在实际生活中，人工智能已经广泛应用于人们的日常生活中。在深度学习兴起之初，大多数模型只专注于计算机视觉或自然语言处理等专一的领域，并没有深入挖掘这两者之间的联系，并且，目前对于模型的训练通常是基于人工标注的数据集进行有监督的训练，不仅耗费人力成本，还耗费许多时间成本，使得模型训练的效率低下。可见，如何对图文匹配模型进行训练以提高模型训练的效率是本领域技术人员尚待解决的技术问题。

技术实现思路

[0003]本专利技术所要解决的技术问题在于，提供一种图文匹配模型的训练方法及装置，能够有利于提高图文匹配模型训练的效率，还能够基于训练所得的图文匹配模型实现图文互搜以及多模态数据分类。
[0004]为了解决上述技术问题，本专利技术第一方面公开了一种图文匹配模型的训练方法，所述方法包括：获取用于图文匹配模型训练的训练数据集，所述训练数据集中包括多个文本数据和多个图像数据；针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量；针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组；将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训...

【技术保护点】

【技术特征摘要】
1.一种图文匹配模型的训练方法，其特征在于，所述方法包括：获取用于图文匹配模型训练的训练数据集，所述训练数据集中包括多个文本数据和多个图像数据；针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量；针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组；将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，所述初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种；判断所述初始损失信息是否满足训练完成条件，当判断结果为是时，将所述初始图文匹配模型确定为目标图文匹配模型。2.根据权利要求1所述的图文匹配模型的训练方法，其特征在于，在获取用于图文匹配模型训练的训练数据集之后，在针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量之前，所述方法还包括：针对所述训练数据集中的每个所述文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据；以及，所述针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，包括：针对每个所述特征掩盖文本数据，将该特征掩盖文本数据输入至目标文本模型，得到文本编码向量，其中，所述文本编码向量包括该特征掩盖文本数据的预测文本数据。3.根据权利要求2所述的图文匹配模型的训练方法，其特征在于，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：针对每个所述初始训练用图文数据组，将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作，得到初始图文输入数据组；针对每个所述初始图文输入数据组，将该初始图文输入数据组输入至初始图文匹配模型，得到初始图文数据组输出结果；根据所有所述初始图文数据组输出结果，确定初始训练数据输出结果；其中，所述初始图文数据组输出结果包括多个初始图文输出数据组，所述初始图文输出数据组的数量与所述初始训练用图文数据组的数量相等，每个所述初始图文输出数据组包括文本数据输出结果以及图像数据输出结果。4.根据权利要求3所述的图文匹配模型的训练方法，其特征在于，所述针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹
配模型，得到初始训练数据输出结果之前，所述方法还包括：从所有所述初始训练用图文数据组中确定出至少两个第一训练用图文数据组，将所有所述第一训练用图文数据组中所包括的所述文本数据与所述图像数据重新组合，得到第二训练用图文数据组，每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练用图文数据组中所包括的数据不均相同；将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组；所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：将所有所述目标训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果。5.根据权利要求4所述的图文匹配模型的训练方法，其特征在于，当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时，所述基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，包括：针对每个所述文本编码向量，从所述训练数据集中确定出与该文本编码向...

【专利技术属性】
技术研发人员：陈畅新，李展铿，
申请(专利权)人：有米科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人