【技术实现步骤摘要】
图像文本匹配方法、产品检索方法、电子设备及存储介质
[0001]本申请涉及跨模态数据处理领域,具体而言,涉及一种图像文本匹配方法
、
产品检索方法
、
电子设备及存储介质
。
技术介绍
[0002]目前在图像文本匹配领域中,通常采用双流模型实现,双流模型可以使用单一特征来编码图像和文本,并基于特征向量之间的余弦相似度或向量内积来确定匹配分数
。
但是,单一表征无法覆盖复杂内容,而且很难匹配多种含义,因此,双流模型的性能有限,导致图像文本匹配方法的准确度较低
。
[0003]针对上述的问题,目前尚未提出有效的解决方案
。
技术实现思路
[0004]本申请实施例提供了一种图像文本匹配方法
、
产品检索方法
、
电子设备及存储介质,以至少解决通过双流模型进行图像文本匹配的准确度较低的技术问题
。
[0005]根据本申请实施例的一个方面,提供了一种图像文本匹配方法,包括:获取待匹配图像和待匹配文本;分别对待匹配图像和待匹配文本进行编码,得到待匹配图像的图像隐藏状态和待匹配文本的文本隐藏状态;基于多个第一视图编码对图像隐藏状态进行注意力处理,得到待匹配图像的图像特征,并基于多个第二视图编码对文本隐藏状态进行注意力处理,得到待匹配文本的文本特征;基于图像特征和文本特征,对待匹配图像和待匹配文本进行匹配,得到目标匹配结果
。
[0006]根据本申请实施例的另一方面,还提供了 ...
【技术保护点】
【技术特征摘要】
1.
一种图像文本匹配方法,其特征在于,包括:获取待匹配图像和待匹配文本;分别对所述待匹配图像和所述待匹配文本进行编码,得到所述待匹配图像的图像隐藏状态和所述待匹配文本的文本隐藏状态;基于多个第一视图编码对所述图像隐藏状态进行注意力处理,得到所述待匹配图像的图像特征,并基于多个第二视图编码对所述文本隐藏状态进行注意力处理,得到所述待匹配文本的文本特征;基于所述图像特征和所述文本特征,对所述待匹配图像和所述待匹配文本进行匹配,得到目标匹配结果
。2.
根据权利要求1所述的方法,其特征在于,基于多个第一视图编码对所述图像隐藏状态进行注意力处理,得到所述待匹配图像的图像特征,并基于多个第二视图编码对所述文本隐藏状态进行注意力处理,得到所述待匹配文本的文本特征,包括:对多个所述第一视图编码和所述图像隐藏状态进行交叉注意力处理,得到多个第一注意力特征,并对多个所述第二视图编码和所述文本隐藏状态进行交叉注意力处理,得到多个第二注意力特征;对多个所述第一注意力特征和所述图像隐藏状态进行加权和,得到多个第一视图特征,并对多个所述第二注意力特征和所述文本隐藏状态进行加权和,得到多个第二视图特征;对多个所述第一视图特征进行拼接,得到所述图像特征,并对多个所述第二视图特征进行拼接,得到所述文本特征
。3.
根据权利要求2所述的方法,其特征在于,对多个所述第一视图编码和所述图像隐藏状态进行交叉注意力处理,得到多个第一注意力特征,并对多个所述第二视图编码和所述文本隐藏状态进行交叉注意力处理,得到多个第二注意力特征,包括:将所述第一视图编码作为第一查询,所述图像隐藏状态作为第一键和第一值,并将所述第二视图编码作为第二查询,所述文本隐藏状态作为第二键和第二值;对所述第一查询
、
所述第一键和所述第一值进行处理,得到所述第一注意力特征,并对所述第二查询
、
所述第二键和所述第二值进行处理,得到所述第二注意力特征
。4.
根据权利要求2所述的方法,其特征在于,对多个所述第一注意力特征和所述图像隐藏状态进行加权和,得到多个第一视图特征,并对多个所述第二注意力特征和所述文本隐藏状态进行加权和,得到多个第二视图特征,包括:将所述第一注意力特征包含的第一特征值与所述图像隐藏状态包含的第一子状态进行加权和,得到所述第一视图特征;将所述第二注意力特征包含的第二特征值与所述文本隐藏状态包含的第二子状态进行加权和,得到所述第二视图特征
。5.
根据权利要求2所述的方法,其特征在于,所述方法还包括:获取训练样本,其中,所述训练样本包括:训练图像和训练文本;分别对所述训练图像和所述训练文本进行编码,得到所述训练图像的第一隐藏状态和所述训练文本的第二隐藏状态;基于多个第一初始编码对所述第一隐藏状态进行注意力处理,得到所述训练图像的第
一特征,并基于多个第二初始编码对所述第二隐藏状态进行注意力处理,得到所述训练文本的第二特征;基于所述第一特征
、
所述第二特征
、
多个所述第一初始编码和多个所述第二初始编码,构建目标损失;基于所述目标损失分别对多个所述第一初始编码和多个所述第二初始编码进行调整,得到多个所述第一视图编码和多个所述第二视图编码
。6.
根据权利要求5所述的方法,其特征在于,基于所述第一特征
、
所述第二特征
、
多个所述第一初始编码和多个所述第二初始编码,构建目标损失,包括:基于所述第一特征和所述第二特征,构建匹配损失;基于多个所述第一初始编码和多个所述第二初始编码,构建多样性损失;对所述匹配损失和所述多样性损失进行加权和,得到所述目标损失
。7.
根据权利要求6所述的方法,其特征在于,基于所述第一特征和所述第二特征,构建匹配损失,包括:基于所述第一特征和多个所述第二特征,构建图像到文本的第一匹配损失;基于所述第二特征和多个所述第一特征,构建文本到图像的第二匹配损失;获取所述第一匹配损失和所述第二匹配损失的均值,得到所述匹配损失
。8.
根据权利要求6所述的方法,其特征在于,基于多个所述第一初始编码和多个所述第二初始编码,构建多样性损失,包括:基于多个所述第一初始编码构建第一矩阵,并基于多个所述第二初始编码构建第二矩阵;获取所述第一矩阵和所述第一矩阵的转置的乘积,得到第一矩阵乘,并获取所述第二矩阵和所述第二矩阵的转置的乘积,得到第二矩阵乘;获取所述第一矩阵乘和单位矩阵的差值,得到第一矩阵差,并获取所述第二矩阵乘和所述单位矩阵的差值,得到第二矩阵差;获取所述第一矩阵差和所述第二矩阵差的范数,得到第一多样性损失和第二多样性损失;获取所述第一多样性损失和所述第二多样性损失之和,得到所述多样性损失
。9.
根据权利要求1所述的方法,其特征在于,分别对所述待匹配图像和所述待匹配文本进行编码,得到所述待匹配图像的图像隐藏状态和所述待匹配文本的文本隐藏状态,包括:利用图像编码器对所述待匹配图像进行编码,得到所述图像隐藏状态;利用文本编码器对所述待匹配文本进行编码,得到所述文本隐藏状态
。10.
根据权利要求9所述的方法...
【专利技术属性】
技术研发人员:程瑞,罗长升,
申请(专利权)人:优视科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。