图文相似度的确定方法、装置及电子设备制造方法及图纸

技术编号:34277229 阅读:33 留言:0更新日期:2022-07-24 17:26
本公开提供了一种图文相似度的确定方法、装置及电子设备,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。该方法包括:从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;利用预定的概念表征信息,分别对目标图像和目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,概念表征信息为用于表示各个指定概念的概念表征的内容;基于第一图像特征、第二图像特征,以及第一文本特征和第二文本特征,计算目标图像和目标文本之间的相似度。通过本方案,可以提高图文匹配时相似度计算的准确性。确性。确性。

Method, device and electronic equipment for determining graphic similarity

【技术实现步骤摘要】
图文相似度的确定方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,具体涉及一种图文相似度的确定方法、装置及电子设备。

技术介绍

[0002]所谓图像文本对齐,是通过计算一幅图像和一段文本的相似度,来确定该图像与该文本是否匹配。例如,在图像文本跨模态检索任务中,当给定一段文本时,可以依据图像与文本的相似度去检索与文本相匹配的图像;在图像描述生成任务中,给定一幅图像,需要依据图像检索相匹配的文本,并以此作为该图像的文本描述。相关技术中,实现图像文本对齐的方式,一般是对图像和文本的特征在公共空间中的直接映射进行表征,再比较映射后的特征的相似度。

技术实现思路

[0003]本公开提供了一种图文相似度的确定方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种图文相似度的确定方法,包括:
[0005]从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;
[0006]利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定概念的概念表征的内容;
[0007]基于所述第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度。
[0008]根据本公开的另一方面,提供了一种图文相似度的确定装置,包括:
[0009]提取模块,用于从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;
[0010]表征模块,用于利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定概念的概念表征的内容;
[0011]计算模块,用于基于所述第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度。
[0012]根据本公开的又一方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与所述至少一个处理器通信连接的存储器;其中,
[0015]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够上述图文相似度的确定方法。
[0016]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行图文相似度的确定方法。
[0017]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现图文相似度的确定方法。
[0018]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1是本公开实施例中的基于整体特征的图文对齐方法示意图;
[0021]图2是本公开实施例中的基于局部特征的图文对齐方法示意图;
[0022]图3是本公开实施例所提供的图文相似度的确定方法的流程图;
[0023]图4是本公开实施例中的常识知识概念示意图;
[0024]图5是本公开实施例所提供的图文相似度的确定方法的另一流程图;
[0025]图6是本公开实施例所提供的图文相似度的确定装置的结构示意图;
[0026]图7用来实现本公开实施例的图文相似度的确定方法的电子设备的框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]跨模态检索是指以某一模态数据作为查询词,依据不同模态的数据之间的语义相关性,返回与其具有相同或相近语义的其他模态数据的检索结果。其中,作为互联网中最广泛存在的两种模态的数据,图像和文本之间的跨模态检索,即图像

文本匹配。传统的互联网服务中,大部分跨模态检索实际上仍是通过单模态检索完成的,即对不同模态数据,如图像、视频等进行文本描述,借助文本描述通过文字之间的语义相似性进行信息检索。而在如今移动互联网时代,面对海量的多模态数据,全部对其进行人工语言描述标注显然是不现实的。这就需要能够从不同模态数据中更有效地挖掘出其中所蕴含的深层信息,并基于此进行语义相似性计算。
[0029]作为信息检索领域的重要应用,图文检索有着广泛的应用前景,例如,在搜索引擎中提供更多的查询类型选择;在电子商务中依据文本搜索商品;在安防领域通过特定人的外貌描述,对身份未知的特定人物进行搜索。图文检索则涉及到图文对齐,目前,已有的图文对齐方法一般分为以下两类方案:
[0030](1)基于整体特征(holistic representation)对齐的方法,如图1所示,分别使用视觉编码器(如卷积神经网络)和文本编码器(如循环神经网络)对图像和文本提取全局特征,再映射到公共空间中,计算相似度。
[0031](2)基于局部特征(local representation)对齐的方法。即,分别使用目标检测器以及循环神经网络提取图像和文本的局部特征,再映射到公共空间中,比较每一局部特征的相似度,从而进行更加细粒度的跨模态对齐。示例性的,如图2所示,针对一段文本:“A young girl disposes of blue tissue paper off of a pinata.”可以提取出A、girl、
tissue、pinata等单词,与图像中识别出的pinata、tissue、girl等对象一一进行相似度的比较。
[0032]上述过程可以通过预先训练完成的图文对齐模型来实现,训练的过程可以为:预先准备大量的图文样本对,并标注图文样本对是否匹配的匹配结果作为真值,将图文样本对输入该图文对齐模型中,利用双向对比学习约束(如双向三元组排序约束,bidirectional triplet ranking loss)作为损失函数,计算该图文对齐模型所识别出的对象与真值的距离,从而对该映射模型调参,直到该映射模型的损失函数收敛。
[0033]然而,由于图像和文本存在原生性的差异,会造成匹配的结果不够准确。例如,在图2中,图像中由目标检测器提取的实体“girl”和“pinata”有很大的位置重叠,这会导致二者提取的视觉特征有较高的相似度;但对于文本模态中,二者的语义关系则有很大的差异。这种现象的存在会给图文对齐模型的学习造成较大的困难本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文相似度的确定方法,包括:从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定概念的概念表征的内容;基于所述第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度。2.根据权利要求1所述的方法,其中,所述概念表征信息是根据各个指定概念的文本向量组合,以及用于表示所述各个指定概念之间的相关性的相关性信息,所生成的。3.根据权利要求2所述的方法,其中,所述各个指定概念为预定语料库中的概念,所述相关性信息包括:在所述预定预料库中每一个指定概念出现时,其他指定概念的出现概率。4.根据权利要求3所述的方法,其中,在所述预定语料库中每一个指定概念出现时,其他指定概念的出现概率的确定方式包括:采用预定计算公式,计算在所述预定预料库中每一个指定概念出现时,其他指定概念的出现概率;其中,所述预定计算公式包括:其中,P
ij
表示在所述预定预料库中当概念C
j
出现时概念C
i
的出现概率;E
ij
表示概念C
i
和概念C
j
的在所述预定预料库中共同出现的次数,N
i
表示C
i
在所述预定预料库中的出现次数。5.根据权利要求2所述的方法,其中,所述概念表征信息的构建方式包括:将所述各个指定概念的文本向量组合,以及所述相关性信息输入图卷积网络,得到所述概念表征信息;其中,所述图卷积网络的第l层计算公式为:其中,所述图卷积网络的第l层计算公式为:其中,H
(0)
=Y,Y表示所述文本向量组合,P为用于表示所述相关性信息的矩阵,D表示P的度矩阵,表示P正则化的对称拉普拉斯矩阵,W表示权重矩阵,ρ表示非线性激活函数,所述图卷积网络的最后一层输出Z为所述概念表征信息,Z的第i行向量Z
i
表示概念C
i
对应的概念表征。6.根据权利要求1

5任一项所述的方法,其中,所述利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征,包括:利用预定的概念表征信息以及预定的特征计算模型,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述预定的特征计算模型是基于正样本图文对和负样本图文对,以及所述概念表征信息,训练得到的模型。
7.根据权利要求6所述的方法,其中,所述特征计算模型的计算公式包括:其中,其中,其中,其中,v
C
和t
C
分别表示任一图像的第二图像特征,以及任一文本的第二文本特征;W
v
和W
t
为参数矩阵;表示指定概念C
i
相对于所述任一图像在概念级语义上的第一重要性得分;表示指定概念C
i
相对于所述任一文本在概念级语义上的第二重要性得分;λ为控制平滑度的超参数;Z
i
、Z
j
表示指定概念C
i
、C
j
对应的概念表征;表示从所述任一图像提取的图像特征,t
I
表示从所述任一文本中提取的文本特征,和分别表示Z
i
和的转置矩阵,q表示指定概念的数量。8.根据权利要求6所述的方法,其中,所述第一图像特征为通过第一特征提取模型所提取的,所述第一文本特征为通过第二特征提取模型所提取到的;所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型是利用正样本图文对和负样本图文对联合训练得到。9.根据权利要求8所述的方法,其中,所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型的联合训练方式包括:获取正样本图文对和负样本图文对;所述正样本图文对包括第一样本图像和第一样本文本,所述负样本图文对包括第二样本图像和第二样本文本;分别将所述第一样本图像和所述第二样本图像,输入所述第一特征提取模型,得到所述第一样本图像的第一图像特征以及所述第二样本图像的第一图像特征;分别将所述第一样本文本和所述第二样本文本,输入所述第二特征提取模型,得到所述第一样本文本的第一文本特征和所述第二样本文本的第一文本特征;分别利用特征计算模型以及所述概念表征信息,计算所述第一样本图像和所述第二样本图像的第二图像特征,以及所述第一样本文本和所述第二样本文本的第二图像特征;利用所计算得到的各个图像特征和文本特征,计算模型损失;响应于基于所述模型损失确定各个模型未收敛,调整各个模型的参数。10.根据权利要求9所述的方法,其中,所述利用所计算得到的各个图像特征和文本特征,计算模型损失,包括:将所计算得到的各个图像特征和文本特征,代入预定的损失函数,得到模型损失;其中,所述预定的损失函数包括:中,所述预定的损失函数包括:
其中,表示第一损失函数;表示第二损失函数;λ为预设的超参数;S表示余弦距离函数;分别分别表示所述第一样本图像的第一图像特征和所述第一样本文本的第一文本特征;所述第一样本文本的第一文本特征;分别表示所述第二样本图像的第一图像特征和所述第二样本文本的第一文本特征;分别表示所述第一样本图像的第二图像特征和所述第一样本文本的第二文本特征;分别表示所述第二样本图像的第二图像特征和所述第二样本文本的第二文本特征。11.根据权利要求1所述的方法,其中,所述基于第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度包括:计算所述第一图像特征与所述第一文本特征之间的相似度,得到第一相似度;计算所述第二图像特征与所述第二文本特征之间的相似度,得到第二相似度;线性组合所述第一相似度以及所述第二相似度,得到所述目标图像和所述目标文本之间的内容相似度。12.一种图文相似度的确定装置,包括:提取模块,用于从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;表征模块,用于利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定...

【专利技术属性】
技术研发人员:汪浩然何栋梁李甫丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1