文本和图像的匹配方法、装置、电子设备和存储介质制造方法及图纸

技术编号：35044048 阅读：23 留言：0更新日期：2022-09-24 23:24

本公开关于文本和图像的匹配方法、装置、电子设备和存储介质，该方法包括：获取待匹配文本包括的关键词；利用目标文本编码器提取待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；目标文本编码器和目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；根据词元的特征信息和多个候选图像的特征信息，确定关键词和各个候选图像之间的第一匹配度；根据第二匹配度，从多个候选图像中确定目标图像。本方案可以细粒度地刻画文本内容和图像的配对效果，并且基于对比的自监督学习方法提高了模型的特征表达能力，增强了文本和图像的深层语义匹配能力，提高了匹配精度。提高了匹配精度。提高了匹配精度。

全部详细技术资料下载

【技术实现步骤摘要】
文本和图像的匹配方法、装置、电子设备和存储介质

[0001]本公开涉及计算机视觉领域，尤其涉及文本和图像的匹配方法、装置、电子设备和存储介质。

技术介绍

[0002]当前大规模视觉语言预训练模型在图文检索等领域中有着重要的应用。CLIP模型通过双塔结构提取文本和图像特征，利用对比学习策略建模文本和图像的配对关系，从而有效地将跨模态下的文本和图像特征映射到同一特征空间。但由于文本和图像配对中往往文本只有部分内容和图像内容对齐，存在语义不对齐（mis
‑
alignment）的问题，这使得CLIP模型只能粗粒度地刻画文本和图像的匹配关系，匹配精度不高。

技术实现思路

[0003]本公开提供文本和图像的匹配方法、装置、电子设备和存储介质，以至少解决相关技术中文本和图像匹配精度不高的问题。本公开的技术方案如下：根据本公开实施例的第一方面，提供一种文本和图像的匹配方法，包括：获取待匹配文本包括的关键词；利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度；根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度；根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。
[0004]可选地，所述...

【技术保护点】

【技术特征摘要】
1.一种文本和图像的匹配方法，其特征在于，包括：获取待匹配文本包括的关键词；利用目标文本编码器提取所述待匹配文本包括的词元的特征信息，并利用目标图像编码器提取预设的多个候选图像的特征信息；所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到；根据所述词元的特征信息和所述多个候选图像的特征信息，确定所述关键词和各个所述候选图像之间的第一匹配度；根据所述第一匹配度，确定所述待匹配文本和所述候选图像之间的第二匹配度；根据所述第二匹配度，从所述多个候选图像中确定目标图像，所述目标图像用于与所述待匹配文本进行配对。2.根据权利要求1所述的方法，其特征在于，所述确定所述关键词和各个所述候选图像之间的第一匹配度，包括：将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配，得到多个第一子匹配度；根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度。3.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一子匹配度，确定所述关键词和所述多个候选图像之间的第一匹配度，包括：获取所述词元在所述待匹配文本中的第一位置信息和所述关键词在所述待匹配文本中的第二位置信息；根据所述第一位置信息和所述第二位置信息，确定所述关键词包括的多个目标词元；确定所述多个目标词元对应的第一子匹配度的平均值，将所述平均值作为所述关键词和所述候选图像之间的第一匹配度。4.根据权利要求2所述的方法，其特征在于，所述将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配，包括：确定由多个所述候选图像的特征信息组成的特征队列；计算各个所述词元的特征信息和所述特征队列之间的点积，得到多个第一子匹配度。5.根据权利要求1所述的方法，其特征在于，所述目标文本编码器和所述目标图像编码器通过以下方法训练得到：利用第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，对初始文本编码器和动量文本编码器进行初次训练，得到迭代文本编码器和迭代动量文本编码器；利用第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，对初始图像编码器和动量图像编码器进行初次训练，得到迭代图像编码器和迭代动量图像编码器；利用所述迭代动量图像编码器和所述迭代文本编码器，对所述迭代文本编码器进行多次训练，直到训练得到的第一损失值小于预设第一阈值，训练结束，得到目标文本编码器；利用所述迭代动量文本编码器和所述迭代图像编码器，对所述迭代图像编码器进行多次训练，直到训练得到的第二损失值小于预设第二阈值，训练结束，得到目标图像编码器。
6.根据权利要求5所述的方法，其特征在于，所述利用第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，对初始文本编码器和动量文本编码器进行初次训练，包括：根据第一图像样本的特征信息和第一文本样本的词元特征信息，以及预设的标签图像，确定本次初始文本编码器训练的第一损失值；所述第一图像样本的特征信息由动量图像编码器输出，所述第一文本样本的词元特征信息由初始文本编码器输出；基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器。7.根据权利要求6所述的方法，其特征在于，所述利用第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，对初始图像编码器和动量图像编码器进行初次训练，包括：根据第二文本样本的词元特征信息和第二图像样本的特征信息，以及预设的标签文本，确定本次初始图像编码器训练的第二损失值；所述词元特征信息由所述迭代动量文本编码器输出，所述第二图像样本的特征信息由初始图像编码器输出；基于所述第二损失值，分别对所述初始图像编码器和动量图像编码器的参数进行修改，得到迭代图像编码器和迭代动量图像编码器。8.根据权利要求6所述的方法，其特征在于，所述基于所述第一损失值，分别对所述初始文本编码器和动量文本编码器的参数进行修改，得到迭代文本编码器和迭代动量文本编码器，包括：根据所述第一损失值修改所述初始文本编码器的参数，得到迭代文本编码器；获取所述迭代文本编码器迭代前的第一参数和迭代后的第二参数；根据所述第一参数和所述第二参数的滑动平均值，修改动量文本...

【专利技术属性】
技术研发人员：付君，王宇航，刘锦龙，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人