文本和图像的匹配方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35044048 阅读:23 留言:0更新日期:2022-09-24 23:24
本公开关于文本和图像的匹配方法、装置、电子设备和存储介质,该方法包括:获取待匹配文本包括的关键词;利用目标文本编码器提取待匹配文本包括的词元的特征信息,并利用目标图像编码器提取预设的多个候选图像的特征信息;目标文本编码器和目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到;根据词元的特征信息和多个候选图像的特征信息,确定关键词和各个候选图像之间的第一匹配度;根据第二匹配度,从多个候选图像中确定目标图像。本方案可以细粒度地刻画文本内容和图像的配对效果,并且基于对比的自监督学习方法提高了模型的特征表达能力,增强了文本和图像的深层语义匹配能力,提高了匹配精度。提高了匹配精度。提高了匹配精度。

【技术实现步骤摘要】
文本和图像的匹配方法、装置、电子设备和存储介质


[0001]本公开涉及计算机视觉领域,尤其涉及文本和图像的匹配方法、装置、电子设备和存储介质。

技术介绍

[0002]当前大规模视觉语言预训练模型在图文检索等领域中有着重要的应用。CLIP模型通过双塔结构提取文本和图像特征,利用对比学习策略建模文本和图像的配对关系,从而有效地将跨模态下的文本和图像特征映射到同一特征空间。但由于文本和图像配对中往往文本只有部分内容和图像内容对齐,存在语义不对齐(mis

alignment)的问题,这使得CLIP模型只能粗粒度地刻画文本和图像的匹配关系,匹配精度不高。

技术实现思路

[0003]本公开提供文本和图像的匹配方法、装置、电子设备和存储介质,以至少解决相关技术中文本和图像匹配精度不高的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种文本和图像的匹配方法,包括:获取待匹配文本包括的关键词;利用目标文本编码器提取所述待匹配文本包括的词元的特征信息,并利用目标图像编码器提取预设的多个候选图像的特征信息;所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到;根据所述词元的特征信息和所述多个候选图像的特征信息,确定所述关键词和各个所述候选图像之间的第一匹配度;根据所述第一匹配度,确定所述待匹配文本和所述候选图像之间的第二匹配度;根据所述第二匹配度,从所述多个候选图像中确定目标图像,所述目标图像用于与所述待匹配文本进行配对。
[0004]可选地,所述确定所述关键词和各个所述候选图像之间的第一匹配度,包括:将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配,得到多个第一子匹配度;根据所述多个第一子匹配度,确定所述关键词和所述多个候选图像之间的第一匹配度。
[0005]可选地,所述根据所述多个第一子匹配度,确定所述关键词和所述多个候选图像之间的第一匹配度,包括:获取所述词元在所述待匹配文本中的第一位置信息和所述关键词在所述待匹配文本中的第二位置信息;根据所述第一位置信息和所述第二位置信息,确定所述关键词包括的多个目标词元;确定所述多个目标词元对应的第一子匹配度的平均值,将所述平均值作为所述关
键词和所述候选图像之间的第一匹配度。
[0006]可选地,所述将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配,包括:确定由多个所述候选图像的特征信息组成的特征队列;计算各个所述词元的特征信息和所述特征队列之间的点积,得到多个第一子匹配度。
[0007]可选地,所述目标文本编码器和所述目标图像编码器通过以下方法训练得到:利用第一图像样本的特征信息和第一文本样本的词元特征信息,以及预设的标签图像,对初始文本编码器和动量文本编码器进行初次训练,得到迭代文本编码器和迭代动量文本编码器;利用第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,对初始图像编码器和动量图像编码器进行初次训练,得到迭代图像编码器和迭代动量图像编码器;利用所述迭代动量图像编码器和所述迭代文本编码器,对所述迭代文本编码器进行多次训练,直到训练得到的第一损失值小于预设第一阈值,训练结束,得到目标文本编码器;利用所述迭代动量文本编码器和所述迭代图像编码器,对所述迭代图像编码器进行多次训练,直到训练得到的第二损失值小于预设第二阈值,训练结束,得到目标图像编码器。
[0008]可选地,所述利用第一图像样本的特征信息和第一文本样本的词元特征信息,以及预设的标签图像,对初始文本编码器和动量文本编码器进行初次训练,包括:根据第一图像样本的特征信息和第一文本样本的词元特征信息,以及预设的标签图像,确定本次初始文本编码器训练的第一损失值;所述第一图像样本的特征信息由动量图像编码器输出,所述第一文本样本的词元特征信息由初始文本编码器输出;基于所述第一损失值,分别对所述初始文本编码器和动量文本编码器的参数进行修改,得到迭代文本编码器和迭代动量文本编码器。
[0009]可选地,所述利用第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,对初始图像编码器和动量图像编码器进行初次训练,包括:根据第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,确定本次初始图像编码器训练的第二损失值;所述词元特征信息由所述迭代动量文本编码器输出,所述第二图像样本的特征信息由初始图像编码器输出;基于所述第二损失值,分别对所述初始图像编码器和动量图像编码器的参数进行修改,得到迭代图像编码器和迭代动量图像编码器。
[0010]可选地,所述基于所述第一损失值,分别对所述初始文本编码器和动量文本编码器的参数进行修改,得到迭代文本编码器和迭代动量文本编码器,包括:根据所述第一损失值修改所述初始文本编码器的参数,得到迭代文本编码器;获取所述迭代文本编码器迭代前的第一参数和迭代后的第二参数;根据所述第一参数和所述第二参数的滑动平均值,修改动量文本编码器的参数,得到迭代动量文本编码器。
[0011]可选地,所述基于所述第二损失值,分别对所述初始图像编码器和动量图像编码器的参数进行修改,得到迭代图像编码器和迭代动量图像编码器,包括:根据所述第二损失值修改所述初始图像编码器的参数,得到迭代图像编码器;获取所述迭代图像编码器迭代前的第三参数和迭代后的第四参数;根据所述第三参数和所述第四参数的滑动平均值,修改动量图像编码器的参数,得到迭代动量图像编码器。
[0012]可选地,所述根据第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,确定本次初始图像编码器训练的第二损失值,包括:获取所述第二文本样本的关键词,并根据所述关键词包括的词元,确定所述第二文本样本的关键词特征信息;将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中;将第二图像样本输入待训练的初始图像编码器,得到所述第二图像样本的特征信息;根据所述第二文本样本的关键词特征信息和所述第二图像样本的特征信息,确定所述第二图像样本和多个所述第二文本样本之间的第二样本匹配度;根据所述第二样本匹配度,从多个所述第二文本样本中确定目标文本样本,并根据所述目标文本样本和预设的标签文本确定本次训练的第二损失值。
[0013]可选地,所述将多个所述第二文本样本的关键词特征信息分别存储到词级文本存储模块中,包括:将每个所述第二文本样本对应的关键词特征信息的存储空间长度设置为目标长度,并将不足所述目标长度的存储空间用初始值填充,并将所述初始值作为非有效特征;采用关键词标记队列对所述关键词特征队列中所述关键词特征的有效性进行标记。
[0014]可选地,所述根据所述第一匹配度,确定所述待匹配文本和所述候选图像之间的第二匹配度,包括:按照所述关键词在所述待匹配文本中的重要程度,确定各个所述关键词对应的权重;将各个所述关键词对应的权重和所述关键词对应的第一匹配度进行加权求和,得到所述待匹配文本和所述候选图像之间的第二匹配度。
[0015]可选地,所述根据所述第一匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本和图像的匹配方法,其特征在于,包括:获取待匹配文本包括的关键词;利用目标文本编码器提取所述待匹配文本包括的词元的特征信息,并利用目标图像编码器提取预设的多个候选图像的特征信息;所述目标文本编码器和所述目标图像编码器分别基于对方在迭代训练过程中的输出值交叉训练得到;根据所述词元的特征信息和所述多个候选图像的特征信息,确定所述关键词和各个所述候选图像之间的第一匹配度;根据所述第一匹配度,确定所述待匹配文本和所述候选图像之间的第二匹配度;根据所述第二匹配度,从所述多个候选图像中确定目标图像,所述目标图像用于与所述待匹配文本进行配对。2.根据权利要求1所述的方法,其特征在于,所述确定所述关键词和各个所述候选图像之间的第一匹配度,包括:将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配,得到多个第一子匹配度;根据所述多个第一子匹配度,确定所述关键词和所述多个候选图像之间的第一匹配度。3.根据权利要求2所述的方法,其特征在于,所述根据所述多个第一子匹配度,确定所述关键词和所述多个候选图像之间的第一匹配度,包括:获取所述词元在所述待匹配文本中的第一位置信息和所述关键词在所述待匹配文本中的第二位置信息;根据所述第一位置信息和所述第二位置信息,确定所述关键词包括的多个目标词元;确定所述多个目标词元对应的第一子匹配度的平均值,将所述平均值作为所述关键词和所述候选图像之间的第一匹配度。4.根据权利要求2所述的方法,其特征在于,所述将所述词元的特征信息和多个所述候选图像的特征信息分别进行匹配,包括:确定由多个所述候选图像的特征信息组成的特征队列;计算各个所述词元的特征信息和所述特征队列之间的点积,得到多个第一子匹配度。5.根据权利要求1所述的方法,其特征在于,所述目标文本编码器和所述目标图像编码器通过以下方法训练得到:利用第一图像样本的特征信息和第一文本样本的词元特征信息,以及预设的标签图像,对初始文本编码器和动量文本编码器进行初次训练,得到迭代文本编码器和迭代动量文本编码器;利用第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,对初始图像编码器和动量图像编码器进行初次训练,得到迭代图像编码器和迭代动量图像编码器;利用所述迭代动量图像编码器和所述迭代文本编码器,对所述迭代文本编码器进行多次训练,直到训练得到的第一损失值小于预设第一阈值,训练结束,得到目标文本编码器;利用所述迭代动量文本编码器和所述迭代图像编码器,对所述迭代图像编码器进行多次训练,直到训练得到的第二损失值小于预设第二阈值,训练结束,得到目标图像编码器。
6.根据权利要求5所述的方法,其特征在于,所述利用第一图像样本的特征信息和第一文本样本的词元特征信息,以及预设的标签图像,对初始文本编码器和动量文本编码器进行初次训练,包括:根据第一图像样本的特征信息和第一文本样本的词元特征信息,以及预设的标签图像,确定本次初始文本编码器训练的第一损失值;所述第一图像样本的特征信息由动量图像编码器输出,所述第一文本样本的词元特征信息由初始文本编码器输出;基于所述第一损失值,分别对所述初始文本编码器和动量文本编码器的参数进行修改,得到迭代文本编码器和迭代动量文本编码器。7.根据权利要求6所述的方法,其特征在于,所述利用第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,对初始图像编码器和动量图像编码器进行初次训练,包括:根据第二文本样本的词元特征信息和第二图像样本的特征信息,以及预设的标签文本,确定本次初始图像编码器训练的第二损失值;所述词元特征信息由所述迭代动量文本编码器输出,所述第二图像样本的特征信息由初始图像编码器输出;基于所述第二损失值,分别对所述初始图像编码器和动量图像编码器的参数进行修改,得到迭代图像编码器和迭代动量图像编码器。8.根据权利要求6所述的方法,其特征在于,所述基于所述第一损失值,分别对所述初始文本编码器和动量文本编码器的参数进行修改,得到迭代文本编码器和迭代动量文本编码器,包括:根据所述第一损失值修改所述初始文本编码器的参数,得到迭代文本编码器;获取所述迭代文本编码器迭代前的第一参数和迭代后的第二参数;根据所述第一参数和所述第二参数的滑动平均值,修改动量文本...

【专利技术属性】
技术研发人员:付君王宇航刘锦龙
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1