【技术实现步骤摘要】
图文相似度的确定方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,具体涉及一种图文相似度的确定方法、装置及电子设备。
技术介绍
[0002]所谓图像文本对齐,是通过计算一幅图像和一段文本的相似度,来确定该图像与该文本是否匹配。例如,在图像文本跨模态检索任务中,当给定一段文本时,可以依据图像与文本的相似度去检索与文本相匹配的图像;在图像描述生成任务中,给定一幅图像,需要依据图像检索相匹配的文本,并以此作为该图像的文本描述。相关技术中,实现图像文本对齐的方式,一般是对图像和文本的特征在公共空间中的直接映射进行表征,再比较映射后的特征的相似度。
技术实现思路
[0003]本公开提供了一种图文相似度的确定方法、装置及电子设备。
[0004]根据本公开的一方面,提供了一种图文相似度的确定方法,包括:
[0005]从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;
[0006]利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定概念的概念表征的内容;
[0007]基于所述第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度。
[0008]根据本公开的另一方面,提供了一种图文相似度的确定装置,包括:
[0009]提取模块,用于从目标图 ...
【技术保护点】
【技术特征摘要】
1.一种图文相似度的确定方法,包括:从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定概念的概念表征的内容;基于所述第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度。2.根据权利要求1所述的方法,其中,所述概念表征信息是根据各个指定概念的文本向量组合,以及用于表示所述各个指定概念之间的相关性的相关性信息,所生成的。3.根据权利要求2所述的方法,其中,所述各个指定概念为预定语料库中的概念,所述相关性信息包括:在所述预定预料库中每一个指定概念出现时,其他指定概念的出现概率。4.根据权利要求3所述的方法,其中,在所述预定语料库中每一个指定概念出现时,其他指定概念的出现概率的确定方式包括:采用预定计算公式,计算在所述预定预料库中每一个指定概念出现时,其他指定概念的出现概率;其中,所述预定计算公式包括:其中,P
ij
表示在所述预定预料库中当概念C
j
出现时概念C
i
的出现概率;E
ij
表示概念C
i
和概念C
j
的在所述预定预料库中共同出现的次数,N
i
表示C
i
在所述预定预料库中的出现次数。5.根据权利要求2所述的方法,其中,所述概念表征信息的构建方式包括:将所述各个指定概念的文本向量组合,以及所述相关性信息输入图卷积网络,得到所述概念表征信息;其中,所述图卷积网络的第l层计算公式为:其中,所述图卷积网络的第l层计算公式为:其中,H
(0)
=Y,Y表示所述文本向量组合,P为用于表示所述相关性信息的矩阵,D表示P的度矩阵,表示P正则化的对称拉普拉斯矩阵,W表示权重矩阵,ρ表示非线性激活函数,所述图卷积网络的最后一层输出Z为所述概念表征信息,Z的第i行向量Z
i
表示概念C
i
对应的概念表征。6.根据权利要求1
‑
5任一项所述的方法,其中,所述利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征,包括:利用预定的概念表征信息以及预定的特征计算模型,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述预定的特征计算模型是基于正样本图文对和负样本图文对,以及所述概念表征信息,训练得到的模型。
7.根据权利要求6所述的方法,其中,所述特征计算模型的计算公式包括:其中,其中,其中,其中,v
C
和t
C
分别表示任一图像的第二图像特征,以及任一文本的第二文本特征;W
v
和W
t
为参数矩阵;表示指定概念C
i
相对于所述任一图像在概念级语义上的第一重要性得分;表示指定概念C
i
相对于所述任一文本在概念级语义上的第二重要性得分;λ为控制平滑度的超参数;Z
i
、Z
j
表示指定概念C
i
、C
j
对应的概念表征;表示从所述任一图像提取的图像特征,t
I
表示从所述任一文本中提取的文本特征,和分别表示Z
i
和的转置矩阵,q表示指定概念的数量。8.根据权利要求6所述的方法,其中,所述第一图像特征为通过第一特征提取模型所提取的,所述第一文本特征为通过第二特征提取模型所提取到的;所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型是利用正样本图文对和负样本图文对联合训练得到。9.根据权利要求8所述的方法,其中,所述第一特征提取模型、所述第二特征提取模型以及所述特征计算模型的联合训练方式包括:获取正样本图文对和负样本图文对;所述正样本图文对包括第一样本图像和第一样本文本,所述负样本图文对包括第二样本图像和第二样本文本;分别将所述第一样本图像和所述第二样本图像,输入所述第一特征提取模型,得到所述第一样本图像的第一图像特征以及所述第二样本图像的第一图像特征;分别将所述第一样本文本和所述第二样本文本,输入所述第二特征提取模型,得到所述第一样本文本的第一文本特征和所述第二样本文本的第一文本特征;分别利用特征计算模型以及所述概念表征信息,计算所述第一样本图像和所述第二样本图像的第二图像特征,以及所述第一样本文本和所述第二样本文本的第二图像特征;利用所计算得到的各个图像特征和文本特征,计算模型损失;响应于基于所述模型损失确定各个模型未收敛,调整各个模型的参数。10.根据权利要求9所述的方法,其中,所述利用所计算得到的各个图像特征和文本特征,计算模型损失,包括:将所计算得到的各个图像特征和文本特征,代入预定的损失函数,得到模型损失;其中,所述预定的损失函数包括:中,所述预定的损失函数包括:
其中,表示第一损失函数;表示第二损失函数;λ为预设的超参数;S表示余弦距离函数;分别分别表示所述第一样本图像的第一图像特征和所述第一样本文本的第一文本特征;所述第一样本文本的第一文本特征;分别表示所述第二样本图像的第一图像特征和所述第二样本文本的第一文本特征;分别表示所述第一样本图像的第二图像特征和所述第一样本文本的第二文本特征;分别表示所述第二样本图像的第二图像特征和所述第二样本文本的第二文本特征。11.根据权利要求1所述的方法,其中,所述基于第一图像特征、所述第二图像特征,以及所述第一文本特征和所述第二文本特征,计算所述目标图像和所述目标文本之间的内容相似度包括:计算所述第一图像特征与所述第一文本特征之间的相似度,得到第一相似度;计算所述第二图像特征与所述第二文本特征之间的相似度,得到第二相似度;线性组合所述第一相似度以及所述第二相似度,得到所述目标图像和所述目标文本之间的内容相似度。12.一种图文相似度的确定装置,包括:提取模块,用于从目标图像中提取第一图像特征,以及从目标文本中提取第一文本特征;表征模块,用于利用预定的概念表征信息,分别对所述目标图像和所述目标文本的概念级语义进行表征,得到第二图像特征和第二文本特征;其中,所述概念表征信息为用于表示各个指定...
【专利技术属性】
技术研发人员:汪浩然,何栋梁,李甫,丁二锐,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。