【技术实现步骤摘要】
融合有监督信息的基于矩阵分解的跨模态哈希检索方法
本专利技术属于多模态的信息检索领域,主要是涉及到大规模、多模态数据的跨模态哈希检索。
技术介绍
随着近些年来互联网技术的飞速发展,带来了信息生活的极大丰富,文本、图片、视频、音频等等围绕在生活各处,当然随之而来的是多媒体数据的爆炸性增长。但是爆炸性的数据也带来了很多问题,最直接的就是数据的检索问题。由于数据自身的规模和数量的庞大,信息检索任务变得复杂繁冗,而且效率低下。哈希方法可以很好的解决这方面的问题,哈希方法的原理是将原始数据映射到一个汉明空间中,将原始数据用哈希码(0,1字符串)表示,然后根据不同数据点在汉明空间中的距离,即两个哈希码之间的汉明距离来判断它们之间的相似度的高低。早期,哈希方法多用于单模态数据检索的任务中,它可以较好的解决单模态内语义间隙的问题。对于多模态数据的跨模态信息检索而言,它还有着不同模态之间的语义鸿沟问题。传统的跨模态哈希方法是面向无监督的,将多模态数据从不同的异构空间中映射到一个公共空间中,并且同时考虑到模态内和模态间的一致性,使它们在 ...
【技术保护点】
1.一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法,其特征是按如下步骤进行:/n步骤1、获取n个图像-文本对及其相对应的语义类别L,并对任意第i个图像和第i个文本进行特征化处理,得到第i个图像的特征向量
【技术特征摘要】
1.一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法,其特征是按如下步骤进行:
步骤1、获取n个图像-文本对及其相对应的语义类别L,并对任意第i个图像和第i个文本进行特征化处理,得到第i个图像的特征向量以及对应文本的特征向量并记第i个图像或文本的特征向量为从而得到n个图像或文本的特征矩阵,记为X(t),其中,t∈{1,2},i=1,2,…,n;
步骤2、将n个图像或文本的特征矩阵X(t)分解为映射转换矩阵Ut和潜在的图像或文本的语义特征矩阵Vt之间乘积,并利用n个图像-文本对的语义类别矩阵L对语义特征矩阵Vt进行约束,从而通过式(1)得到矩阵分解的目标函数Fmf:
式(1)中,Z是约束的辅助矩阵,且ZL=V=V1=V2,V表示潜在的语义特征矩阵,V1表示潜在的图像的语义特征矩阵,V2表示潜在的文本的语义特征矩阵;λ1和λ2是平衡参数,用于控制相应项的权重,且λ1+λ2=1;表示矩阵的F范数的平方;
步骤3、利用式(2)得到第i个图像-文本对和第j个图像-文本对的模态间相似性矩阵ACij:
式(2)中,Li表示第i个图像-文本对的语义类别,Lj表示第j个图像-文本对的语义类别,i,j=1,2,…,n;
步骤4、利用式(3)得到第i个图像和第j个图像,或第i个文本和第j个文本的相似性矩阵
式(3)中,Nk(·)表示k近邻的集合,表示第i个图像或文本的特征向量,表示第j个图像或文本的特征;
步骤5、利用式(4)得到相似度约束的目标函数Fsim:
Fsim=tr(VSVT)(4)
式(4)中,tr(·)表示矩阵的迹,S表示拉普拉斯矩阵,且S=D-W,D表示对角矩阵,且Wab表示整体相似度矩阵W中第a行第b列的元素,Wab∈W,W表示整体相似度矩阵,且W=AC+A(1)+A(2),AC表示所有不同图像-文本对之间的模态间的相似度矩阵,A(1)表示所有不同图像之间的模态内的相似度矩阵,A(2)表示所有不同文本之间的模态内的相似度矩阵,T表示矩阵转置;
步骤6、根据式(5)所示的两个哈希函数,将图像和文本模态分别通过一个线性投影映射到公共潜在语义空间:
式(5)中,P1表示图像模态特征空间到公共潜在语义空间的映射矩阵,P2表示文本模态特征空间到公共潜在语义空间的映射矩阵;X(1)表示n个图像的特征矩阵;X(2)表示n个文本的特征矩阵;
步骤7、利用式(6)得到从原始数据特征空间到公共潜在语义空间映射的目标函数Fmap:
步骤8、利用式(7)建立总体目标函数Fo:
式(7)中,α,β和γ是控制各自项的权重的平衡参数;R(·)是正则化项;
步骤9、总体目标函数Fo中的参数不断交替迭代更新,直到总体目标函数Fo收敛或者达到迭代次数;
步骤10、根据式(15)得到n个图像-文本对的哈希码H:
H=...
【专利技术属性】
技术研发人员:薛峰,王文博,洪日昌,曾涛,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。