【技术实现步骤摘要】
视觉语言知识蒸馏在跨模态哈希检索的应用
[0001]本专利技术涉及人工智能
,具体涉及一种视觉语言知识蒸馏在跨模态哈希检索的应用。
技术介绍
[0002]随着Web 3.0的到来和云计算普及,社会正处于一个信息爆炸的时期。互联网上的图片、评论、语音、短视频等多媒体数据持续激增,有效的数据处理以获得有价值的信息已经成为一个关键问题。跨模态检索的目标是找到具有相同语义信息的不同模态数据之间的关系,从而实现不同模态数据的快速检索。现有的跨模态检索可以分为两类:实值表示学习和哈希表示学习。实值表示(例如子空间学习和深度学习)通常用欧氏距离来衡量,以确保语义相关的数据是彼此靠近。然而,实值表示空间中的相似性度量存在搜索响应低和计算复杂度高的问题。相比之下,跨模态哈希(CMH)由于其具有低数据存储要求和高效的距离计算(异或运算)优势而受到广泛的关注。CMH可以有效地将多模态数据的高维实值表示投影到公共汉明空间中,使包含共同语义的跨模态数据映射为相似的哈希码。
[0003]根据在训练阶段是否利用类别标签,现有的跨模态哈希方法 ...
【技术保护点】
【技术特征摘要】
1.视觉语言知识蒸馏在跨模态哈希检索的应用,其特征在于,包括:S1、定义符号和问题;S2、建立VLKD框架,将视觉语言知识蒸馏和哈希编码统一在VLKD中,所述VLKD框架是一个端到端的深度模型,所述VLKD框架包括学生哈希编码网络、教师知识蒸馏网络、辅助图卷积网络和哈希码重建模块;S3、建立目标函数及优化算法,整个VLKD框架的参数由SGD算法迭代更新,直到学生哈希编码网络收敛。2.如权利要求1所述的视觉语言知识蒸馏在跨模态哈希检索的应用,其特征在于,S2中,对于学生哈希编码网络,学生哈希编码网络将多模态数据编码为特征向量F
v
和F
t
,将视觉编码器表示为Enc
v
,文本模型特征编码器表示为Enc
t
,方程式表示如下:其中,I和T表示迷你批次的图像和文本训练样本,θ
v
和θ
t
代表文本和视觉编码器的参数,随后,使用MLP作为哈希编码器来生成哈希代码,公式如下:数,随后,使用MLP作为哈希编码器来生成哈希代码,公式如下:其中,α表示迭代次数,HE
*
(
·
,
·
)和θ
h*
,*∈{v,t}分别表示不同模态的哈希编码器和对应的参数。3.如权利要求2所述的视觉语言知识蒸馏在跨模态哈希检索的应用,其特征在于,S2中,对于教师知识蒸馏网络,采用VLP编码器作为教师知识蒸馏网络,教师知识蒸馏网络的编码方程式表示如下:其中,VLPEnc
*
(
·
,
·
),*∈{v,t}代表VLP视觉和文本编码器,表示网络的参数,m表示训练样本的批量大小,d
v
和d
t
分别表示特征向量的维度;使用从教师知识蒸馏网络中提取的多模态特征构建一个相似性图,该相似性图由一个矩阵表示;使用迷你批次的视觉特征来构建视觉模态相似性矩阵对于文本模式,利用文本特征建立文本模式相似性矩阵S
t
=cos(F
tVLP
,F
tVLP
)∈[
‑
1,+1]
m
×
m
;随后,构建一个模态间的相似性矩阵来捕捉不同模态数据的共存相似性,使用和构建模态间余弦相似度矩阵S
Inter
,其中,最后,构建一个相似性图矩阵S
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。