图像文本匹配方法组成比例

技术编号:39716289 阅读:9 留言:0更新日期:2023-12-17 23:24
本申请公开了一种图像文本匹配方法

【技术实现步骤摘要】
图像文本匹配方法、产品检索方法、电子设备及存储介质


[0001]本申请涉及跨模态数据处理领域,具体而言,涉及一种图像文本匹配方法

产品检索方法

电子设备及存储介质


技术介绍

[0002]目前在图像文本匹配领域中,通常采用双流模型实现,双流模型可以使用单一特征来编码图像和文本,并基于特征向量之间的余弦相似度或向量内积来确定匹配分数

但是,单一表征无法覆盖复杂内容,而且很难匹配多种含义,因此,双流模型的性能有限,导致图像文本匹配方法的准确度较低

[0003]针对上述的问题,目前尚未提出有效的解决方案


技术实现思路

[0004]本申请实施例提供了一种图像文本匹配方法

产品检索方法

电子设备及存储介质,以至少解决通过双流模型进行图像文本匹配的准确度较低的技术问题

[0005]根据本申请实施例的一个方面,提供了一种图像文本匹配方法,包括:获取待匹配图像和待匹配文本;分别对待匹配图像和待匹配文本进行编码,得到待匹配图像的图像隐藏状态和待匹配文本的文本隐藏状态;基于多个第一视图编码对图像隐藏状态进行注意力处理,得到待匹配图像的图像特征,并基于多个第二视图编码对文本隐藏状态进行注意力处理,得到待匹配文本的文本特征;基于图像特征和文本特征,对待匹配图像和待匹配文本进行匹配,得到目标匹配结果

[0006]根据本申请实施例的另一方面,还提供了一种产品检索方法,包括:获取检索文本和多个产品图像;分别对产品图像和检索文本进行编码,得到产品图像的图像隐藏状态和检索文本的文本隐藏状态;基于多个第一视图编码对图像隐藏状态进行注意力处理,得到产品图像的图像特征,并基于多个第二视图编码对文本隐藏状态进行注意力处理,得到检索文本的文本特征;基于多个图像特征和文本特征,确定与检索文本相匹配的目标产品图像

[0007]根据本申请实施例的另一方面,还提供了一种图像文本匹配方法,包括:响应作用于操作界面上的输入指令,在操作界面上显示待匹配图像和待匹配文本;响应作用于操作界面上的匹配指令,在操作界面上显示目标匹配结果,其中,目标匹配结果是基于待匹配图像的图像特征和待匹配文本的文本特征,对待匹配图像和待匹配文本进行匹配得到的,图像特征是基于多个第一视图编码对待匹配图像的图像隐藏状态进行注意力处理得到的,文本特征是基于多个第二视图编码对待匹配文本的文本隐藏状态进行注意力处理得到的,图像隐藏状态和文本隐藏状态是分别对待匹配图像和待匹配文本进行编码得到的

[0008]根据本申请实施例的另一方面,还提供了一种产品检索方法,包括:响应作用于操作界面上的输入指令,在操作界面上显示检索文本;响应作用于操作界面上的匹配指令,在操作界面上显示与检索文本相匹配的目标产品图像,其中,目标产品图像是基于检索文本
的文本特征和多个产品图像的图像特征确定得到的,图像特征是基于多个第一视图编码对产品图像的图像隐藏状态进行注意力处理得到的,文本特征是基于多个第二视图编码对检索文本的文本隐藏状态进行注意力处理得到的,图像隐藏状态和文本隐藏状态是分别对产品图像和检索文本进行编码得到的

[0009]根据本申请实施例的另一方面,还提供了一种图像文本匹配方法,包括:通过调用第一接口获取待匹配图像和待匹配文本,其中,第一接口包括第一参数,第一参数的参数值为待匹配图像和待匹配文本;分别对待匹配图像和待匹配文本进行编码,得到待匹配图像的图像隐藏状态和待匹配文本的文本隐藏状态;基于多个第一视图编码对图像隐藏状态进行注意力处理,得到待匹配图像的图像特征,并基于多个第二视图编码对文本隐藏状态进行注意力处理,得到待匹配文本的文本特征;基于图像特征和文本特征,对待匹配图像和待匹配文本进行匹配,得到目标匹配结果;通过调用第二接口输出目标匹配结果,其中,第二接口包括第二参数,第二参数的参数值为目标匹配结果

[0010]根据本申请实施例的另一方面,还提供了一种产品检索方法,包括:通过调用第一接口获取检索文本,其中,第一接口包括第一参数,第一参数的参数值为检索文本;分别对多个产品图像和检索文本进行编码,得到产品图像的图像隐藏状态和检索文本的文本隐藏状态;基于多个第一视图编码对图像隐藏状态进行注意力处理,得到产品图像的图像特征,并基于多个第二视图编码对文本隐藏状态进行注意力处理,得到检索文本的文本特征;基于多个图像特征和文本特征,确定与检索文本相匹配的目标产品图像;通过调用第二接口输出目标产品图像,其中,第二接口包括第二参数,第二参数的参数值为目标产品图像

[0011]根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行上述实施例任意一项的方法

[0012]根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的可执行程序,其中,在可执行程序运行时控制计算机可读存储介质所在设备执行上述实施例任意一项的方法

[0013]在本申请实施例中,在获取到待匹配图像和待匹配分本之后,通过分别对待匹配图像和待匹配文本进行编码,得到待匹配图像的图像隐藏状态和待匹配文本的文本隐藏状态,然后基于多个第一视图编码对图像隐藏状态进行注意力处理,得到待匹配图像的图像特征,并基于多个第二视图编码对文本隐藏状态进行注意力处理,得到待匹配文本的文本特征,最后基于图像特征和文本特征,对待匹配图像和待匹配文本进行匹配,得到目标匹配结果,实现了图像文本匹配的目的

容易注意到的是,最终用于进行图像文本匹配的图像特征和文本特征,是利用多视图编码对隐藏状态进行注意力处理得到的,使得可以从不同角度对图像和文本进行编码,得到包含更多信息的特征,从而可以从不同方面计算图像和文本之间的匹配分数,实现了提高图像文本匹配的准确度的技术效果,进而解决了通过双流模型进行图像文本匹配的准确度较低的技术问题

[0014]容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定

附图说明
[0015]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定

在附图中:
[0016]图1是根据本申请实施例的一种用于实现图像文本匹配方法的计算机终端的硬件结构框图;
[0017]图2是根据本申请实施例的一种可选的计算机终端应用场景的示意图;
[0018]图3是根据本申请实施例1的图像文本匹配方法的流程图;
[0019]图4是根据本申请实施例的一种可选的图像文本匹配方法的流程图;
[0020]图5是根据本申请实施例2的产品检索方法的流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图像文本匹配方法,其特征在于,包括:获取待匹配图像和待匹配文本;分别对所述待匹配图像和所述待匹配文本进行编码,得到所述待匹配图像的图像隐藏状态和所述待匹配文本的文本隐藏状态;基于多个第一视图编码对所述图像隐藏状态进行注意力处理,得到所述待匹配图像的图像特征,并基于多个第二视图编码对所述文本隐藏状态进行注意力处理,得到所述待匹配文本的文本特征;基于所述图像特征和所述文本特征,对所述待匹配图像和所述待匹配文本进行匹配,得到目标匹配结果
。2.
根据权利要求1所述的方法,其特征在于,基于多个第一视图编码对所述图像隐藏状态进行注意力处理,得到所述待匹配图像的图像特征,并基于多个第二视图编码对所述文本隐藏状态进行注意力处理,得到所述待匹配文本的文本特征,包括:对多个所述第一视图编码和所述图像隐藏状态进行交叉注意力处理,得到多个第一注意力特征,并对多个所述第二视图编码和所述文本隐藏状态进行交叉注意力处理,得到多个第二注意力特征;对多个所述第一注意力特征和所述图像隐藏状态进行加权和,得到多个第一视图特征,并对多个所述第二注意力特征和所述文本隐藏状态进行加权和,得到多个第二视图特征;对多个所述第一视图特征进行拼接,得到所述图像特征,并对多个所述第二视图特征进行拼接,得到所述文本特征
。3.
根据权利要求2所述的方法,其特征在于,对多个所述第一视图编码和所述图像隐藏状态进行交叉注意力处理,得到多个第一注意力特征,并对多个所述第二视图编码和所述文本隐藏状态进行交叉注意力处理,得到多个第二注意力特征,包括:将所述第一视图编码作为第一查询,所述图像隐藏状态作为第一键和第一值,并将所述第二视图编码作为第二查询,所述文本隐藏状态作为第二键和第二值;对所述第一查询

所述第一键和所述第一值进行处理,得到所述第一注意力特征,并对所述第二查询

所述第二键和所述第二值进行处理,得到所述第二注意力特征
。4.
根据权利要求2所述的方法,其特征在于,对多个所述第一注意力特征和所述图像隐藏状态进行加权和,得到多个第一视图特征,并对多个所述第二注意力特征和所述文本隐藏状态进行加权和,得到多个第二视图特征,包括:将所述第一注意力特征包含的第一特征值与所述图像隐藏状态包含的第一子状态进行加权和,得到所述第一视图特征;将所述第二注意力特征包含的第二特征值与所述文本隐藏状态包含的第二子状态进行加权和,得到所述第二视图特征
。5.
根据权利要求2所述的方法,其特征在于,所述方法还包括:获取训练样本,其中,所述训练样本包括:训练图像和训练文本;分别对所述训练图像和所述训练文本进行编码,得到所述训练图像的第一隐藏状态和所述训练文本的第二隐藏状态;基于多个第一初始编码对所述第一隐藏状态进行注意力处理,得到所述训练图像的第
一特征,并基于多个第二初始编码对所述第二隐藏状态进行注意力处理,得到所述训练文本的第二特征;基于所述第一特征

所述第二特征

多个所述第一初始编码和多个所述第二初始编码,构建目标损失;基于所述目标损失分别对多个所述第一初始编码和多个所述第二初始编码进行调整,得到多个所述第一视图编码和多个所述第二视图编码
。6.
根据权利要求5所述的方法,其特征在于,基于所述第一特征

所述第二特征

多个所述第一初始编码和多个所述第二初始编码,构建目标损失,包括:基于所述第一特征和所述第二特征,构建匹配损失;基于多个所述第一初始编码和多个所述第二初始编码,构建多样性损失;对所述匹配损失和所述多样性损失进行加权和,得到所述目标损失
。7.
根据权利要求6所述的方法,其特征在于,基于所述第一特征和所述第二特征,构建匹配损失,包括:基于所述第一特征和多个所述第二特征,构建图像到文本的第一匹配损失;基于所述第二特征和多个所述第一特征,构建文本到图像的第二匹配损失;获取所述第一匹配损失和所述第二匹配损失的均值,得到所述匹配损失
。8.
根据权利要求6所述的方法,其特征在于,基于多个所述第一初始编码和多个所述第二初始编码,构建多样性损失,包括:基于多个所述第一初始编码构建第一矩阵,并基于多个所述第二初始编码构建第二矩阵;获取所述第一矩阵和所述第一矩阵的转置的乘积,得到第一矩阵乘,并获取所述第二矩阵和所述第二矩阵的转置的乘积,得到第二矩阵乘;获取所述第一矩阵乘和单位矩阵的差值,得到第一矩阵差,并获取所述第二矩阵乘和所述单位矩阵的差值,得到第二矩阵差;获取所述第一矩阵差和所述第二矩阵差的范数,得到第一多样性损失和第二多样性损失;获取所述第一多样性损失和所述第二多样性损失之和,得到所述多样性损失
。9.
根据权利要求1所述的方法,其特征在于,分别对所述待匹配图像和所述待匹配文本进行编码,得到所述待匹配图像的图像隐藏状态和所述待匹配文本的文本隐藏状态,包括:利用图像编码器对所述待匹配图像进行编码,得到所述图像隐藏状态;利用文本编码器对所述待匹配文本进行编码,得到所述文本隐藏状态
。10.
根据权利要求9所述的方法...

【专利技术属性】
技术研发人员:程瑞罗长升
申请(专利权)人:优视科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1