一种基于特征关联表示的图文检索方法技术

技术编号:39191501 阅读:12 留言:0更新日期:2023-10-27 08:38
一种基于特征关联表示的图文检索方法,属于跨模态检索技术领域,该方法是利用图像和文本特征构造特征关联矩阵。然后,利用神经网络学习生成哈希函数。最后,联合设计的损失函数帮助学习生成哈希码,以此来促进模型的自适应性,与其他方法相比,精确度更高,性能更加稳健。健。

【技术实现步骤摘要】
一种基于特征关联表示的图文检索方法


[0001]本专利技术属于图像文本检索
,具体涉及一种基于特征关联表示的图文检索方法。

技术介绍

[0002]随着互联网的快速发展以及智能设备和社交网络的普及,多模态数据在互联网上呈爆炸式增长。多模态数据只是同一事物在不同模态下的表现。如何以单一模态来检索其他模态,成为搜索信息的关键,这使得跨模态检索应运而生。一般的跨模态检索方法使用不同模态的通用实值来检索其他模态信息,但诸如高计算复杂性和存储效率低下的缺点限制了它们的使用。由于存储二进制哈希码的效率和计算汉明距离的便捷性,将模态特征映射到相同的汉明空间进行检索,跨模态散列方法越来越受到关注。
[0003]对于互联网上的图像文本来说,有监督的方法需要标签标注,显然已不适用于这方面,相反,无监督的方法不需要标签标注数据,因此有更好的适应性,只通过输入图像和文本特征之间的联系来挖掘出潜在的关系。
[0004]同时,深度神经网络的出现为获取特征提供的很大方便,促进了跨模态检索的发展,深度神经网络具有更强的语义表示能力,这有助于进一步学习。相似性矩阵的建立需要统一计算不同特征之间的成对距离。在从预训练网络提取的特征中构建相似性矩阵的方法中,通过特征的关系直接构建相似性矩阵,然后将这作为监督矩阵来学习哈希码,在现有的无监督方法中取得了不错效果。

技术实现思路

[0005]为解决上述问题,本专利技术提供了一种基于特征关联表示的图文检索方法,所述方法包括步骤:
[0006]用VGG
/>19网络提取图像特征X
v
,d1表示图像特征的维度,用BOW方法提取文本特征X
t
,d2表示文本特征的维度,并将两种特征划分为训练集和测试集。
[0007]将训练集中的各模态特征,通过余弦相似计算算法分别构建图像余弦相似矩阵C
v
和文本余弦相似矩阵C
t
,进而构建基础关联矩阵C
base

[0008]划分C
base
中各对象间的相似程度,根据相似程度的不同,划分为强相关相似矩阵C
s
和弱相关矩阵C
w
,与C
base
通过加权计算得到特征关联矩阵C
a

[0009]分别构造三层感知机网络f(x
v
;θ
v
)、f(x
t
;θ
t
)学习哈希码,θ
v
、θ
t
表示待更新的网络参数,将提取的图像文本特征输入各自哈希学习网络,利用特征关联矩阵C
a
构造模态内和模态间的相似损失帮助网络学习,在反向传播过程中,更新网络参数θ
v
、θ
v
,生成二进制的哈希码Z
v
,Z
t

[0010]检索时,将测试集中的模态特征输入至对应的哈希学习网络,将得到哈希码与数据库中的哈希码进行比对,距离最小的即为所查询的实例类别。
[0011]优选的,所述图像特征为X
v
,d1表示图像特征的维度,所述文本特征为X
t
,d2表示文本特征的维度。
[0012]优选地,所述余弦相似计算为:
[0013][0014]其中x
i
,x
j
代表模态中的不同实例。即模态实例间的余弦相似矩阵可表示为:
[0015][0016]其中p∈{v,t},当p=v时,x
i
代表图像实例特征,利用上式计算可得图像余弦相似矩阵C
v
,当p=t时,x
i
代表文本实例特征,利用上式计算可得文本余弦相似矩阵C
t

[0017]优选地,C
base
由以下方式计算:
[0018][0019]即:
[0020][0021]其中,c
ij
∈[

1,1],表示第i个实例与第j个实例的相似程度。
[0022]优选地,所述强相关相似矩阵C
s
和弱相关矩阵C
w
由以下方式计算:
[0023][0024][0025]其中c
ij
∈C
base
,i,j分别表示C
base
中的行列数,σ为设置的范围超参数,σ∈(0.5,1)。
[0026]优选地,所述关联矩阵C
a
表达公式为:
[0027]C
a
=(1

α)C
base
+αC
s

βC
w
[0028]其中,C
base
是基础特征关联矩阵,C
s
,C
w
分别代表强相关和弱相关相似矩阵,α,β为控制各部分比重的参数。
[0029]优选地,图像网络f(x
v
;θ
v
)三层感知机中神经元数量分别设置为d1‑
4096

dl,文本网络f(x
t
;θ
t
)设置为d2‑
4096

dl,d1表示图像特征的维度,d2表示图像特征的维度,dl为哈希码长度。则所述学习的哈希码表示为:
[0030]Z
v
=sign(f(x
v
;θ
v
))
[0031]Z
t
=sign(f(x
t
;θ
t
))
[0032]其中,Z
*
=[z1,z2,...,z
n
]∈{

1,1}
c
×
n
,c代表哈希码的长度,sign()为符号函数,定义为:
[0033][0034]优选地,将哈希函数f(x
v
;θ
v
)、f(x
t
;θ
t
)学习到的Z
v
,Z
t
通过余弦相似计算,并用C
a
进行辅助学习,即得所述模态内和模态间的损失函数为:
[0035]L1=||C(Z
v
,Z
v
)

C
a
||
F
+||C(Z
v
,Z
t
)

C
a
||
F
+||C(Z
t
,Z
t
)

C
a
||
F
[0036]L2=||C(Z
v
...

【技术保护点】

【技术特征摘要】
1.一种基于特征关联表示的图文检索方法,所述方法包括步骤:用VGG

19网络提取图像特征,用BOW方法提取文本特征,并将两种特征划分为训练集和测试集。将训练集中的各模态特征,通过余弦相似计算算法分别构建图像余弦相似矩阵C
v
和文本余弦相似矩阵C
t
,进而构建基础关联矩阵C
base
。划分C
base
中各对象间的相似程度,根据相似程度的不同,划分为强相关相似矩阵C
s
和弱相关矩阵C
w
,与C
base
通过加权计算得到特征关联矩阵C
a
。分别构造三层感知机网络f(x
v
;θ
v
)、f(x
t
;θ
t
)学习哈希码,θ
v
、θ
v
表示待更新的网络参数,将提取的图像文本特征输入各自哈希学习网络,利用特征关联矩阵C
a
构造模态内和模态间的相似损失帮助网络学习,在反向传播过程中,更新网络参数θ
v
、θ
v
,生成二进制的哈希码Z
v
,Z
t
。检索时,将测试集中的模态特征输入至对应的哈希学习网络,将得到哈希码与数据库中的哈希码进行比对,距离最小的即为所查询的实例类别。2.根据权利要求1所述的基于特征关联表示的图文检索方法,其特征在于,所述图像特征为X
v
,d1表示图像特征的维度,所述文本特征为X
t
,d2表示文本特征的维度。3.根据权利要求1所述的基于特征关联表示的图文检索方法,其特征在于,所述余弦相似计算为:其中x
i
,x
j
代表模态中的不同实例。即模态实例间的余弦相似矩阵可表示为:其中p∈{v,t},当p=v时,x
i
代表图像实例特征,利用上式计算可得图像余弦相似矩阵C
v
,当p=t时,x
i
代表文本实例特征,利用上式计算可得文本余弦相似矩阵C
t
。4.根据权利要求1所述的基于特征关联表示的图文检索方法,其特征在于,C
base
由以下方式计算:即:其中,c
ij
∈[

1,1],表示第i个实例与第j个实例的相似程度。
5.根据权利要求1所述的基于特征关联表示的图文检索方法,其特征在于,所述强相关相似矩阵C
s
和弱相关矩阵C
w
由以下方式计算:由以下方式计算:其中c
ij
∈C
base
,i,j分别表示C
base
中的行列数,σ为设置超参数,σ∈(0.5,1)。6.根据权利要求1所述的基于特征关联表示的图文检索方法,其特征在于,所述关联矩阵C
a
表达公式为:C
a
=(1

α)C
base
+αC
s

βC
w
其中,C
base
是基础特征关联矩阵,C
s
,C
w
分别代表强相关和弱相关相似矩阵,α,β为控制各部分比重的参数。7.根据权利要求1所述的基于特征关联表示的图文检索方法,其特征在于,图像网络f(x
v
;θ
v
)中三层感知机的...

【专利技术属性】
技术研发人员:李骜王泽宁孙悦恭程媛
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1