一种有鉴别的全相似性保留哈希跨模态检索方法技术

技术编号:21141125 阅读:43 留言:0更新日期:2019-05-18 05:10
本发明专利技术公开了一种有鉴别的全相似性保留哈希跨模态检索方法,包括:由图像文本对组成样本构成数据集,并将数据集按照分成特征向量训练集和测试集后做规整和均一化处理;提取双模态数据,构造有鉴别的全相似性保留哈希的目标函数;迭代法求解目标函数,比较求解值与设定阈值的大小;使用预设公式计算哈希码;利用图像特征投影矩阵和文本特征投影矩阵对训练集进行投影变换,获得图像文本语义特征矩阵,再次计算哈希码;计算测试集中每个图像哈希码与训练集中所有文本哈希码之间的汉明距离

【技术实现步骤摘要】
一种有鉴别的全相似性保留哈希跨模态检索方法
本专利技术属于模式识别
,涉及考虑保持模态间及模态内数据相似性的同时,保持数据特征向量间的鉴别力度,具体为一种有鉴别的全相似性保留哈希跨模态检索方法。
技术介绍
近几十年来,互联网多媒体数据的爆炸性增长,使得跨媒体数据检索需求增长,并且促进了复杂多模态检索技术的发展。处于现在这个信息的时代,多媒体数据往往来自不同的互联网多媒体平台以及不同的数据资源。这些数据经常共同出现且被用来描述同一物体和事件,因此跨模态检索在实际应用中已经成为必要。为了消除不同模态特征之间的多样性,现有很多研究把关注点放在对潜在子空间的学习上,具体研究的关键点是如何通过学习得到一个共同的语义子空间,能够使得不同模态之间的异构性得到消除,从而使得这些特征在这个学习得到的子空间中能被直接相互匹配;但是这些研究由于忽视了特征维度的可伸缩性,在解决大规模数据的多模态检索时这些方法受到了限制;即传统的跨模态检索方法大都只考虑保留模态内数据的相似性,而忽略了模态间数据相似性的保留,并且在保留相似性的同时破坏了数据之间本身的鉴别力。
技术实现思路
本专利技术的主要目的在于针对现有技术中对跨模检索无法保留模态间数据相似性以及会破坏模态间数据之间本身鉴别力的问题,提供一种有鉴别的全相似性保留哈希跨模态检索方法,本专利技术假设有两种模态的训练数据V={v1,...,vn}和T={t1,...,tn},它们分别是同一对象的两种表示模态,这里的n指代训练样本的个数,具体技术方案如下:一种有鉴别的全相似性保留哈希跨模态检索方法,所述方法包括步骤:S1、由图像文本对组成样本构成数据集,并将所述数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;S2、提取所述训练集中具有双模态的数据,基于所述数据构造有鉴别的全相似性保留哈希的目标函数:,其中,T为文本特征矩阵,PT为文本特征矩阵对应的文本特征投影矩阵,V为图像特征矩阵,PV为图像特征矩阵对应的图像特征投影矩阵,Y为标签矩阵,W为线性分类器,S为语义特征矩阵,L为保留相似性的图拉普拉斯矩阵,γ,μT,μV,λ均为折衷参数;S3、设定一阈值,采用迭代法求解所述目标函数,判断每一迭代过程中所述目标函数的解,若所述解小于或等于所述阈值,则停止迭代,并更新PV,PT,S和W;S4、基于所述目标函数的迭代解采用公式H=sign(S)计算训练集哈希码;S5、利用所述更新得到的PV和PT对所述训练集进行投影变换,将投影变换后得到的矩阵作为图像文本语义特征矩阵,使用公式H=sign(S)计算测试集哈希码;S6、计算所述测试集中每个图像哈希码与所述训练集中所有文本哈希码之间的汉明距离以及所述测试集每个文本哈希码与所述训练集中所有图像哈希码之间的汉明距离S7、升序排列和并根据排列结果查询到所述文本和图像在模态中对应的索引,并按照相关度排名后取前r个作为检索结果,并基于所述模态双模态数据的标签信息对r个所述检索结果进行mAP值计算,完成图像文本对的跨模态检索。进一步的,步骤S3中,所述目标函数采用迭代法求解具体包括步骤:S31、随机初始化PV,PT,S,W确定哈希码长度k;S32、固定S,W,并令得求解得:S33、固定PV,PT,S令得求解得:W=(SST+λI)-1SYT;S34、固定PV,PT,W令得整理得:AS+SB+E=0,其中,A=2(WWT+(μV+μT)I),B=L+LT,E=-2(WT+μVPVV+μTPTT);S35、更新PV,PT,S,W。进一步的,所述折衷参数λ的取值范围为[10-5,1]。进一步的,所述折衷参数γ的取值范围为[0,2]。进一步的,所述折衷参数μT和μV的取值范围均为[1,200]。进一步的,所述方法还包括通过公式和公式计算平均的平均精度指标评估,其中,qi是一条检索输入,N是检索条目输入总数;T是检索集中所有相关实体的个数,Pq(r)是按照相关度排名后的前r个检索实体的精度;ξ(r)是一个指标函数,当第r个被检索到的实体与检索内容标签一致则ξ(r)的值为1,否则为0。本专利技术的有鉴别的全相似性保留哈希跨模态检索方法,首先采集文本-图片作为数据集,并将数据集分为训练集和测试集;然后提取训练集中具有双模态的数据构造有鉴别的全相似性保留哈希的目标函数,并采用迭代法求解目标函数,将得到的目标函数解与一设定阈值比较,同时通过指定公式计算哈希码;接着获取图像文本语义特征矩阵,并再次计算哈希码;随后计算测试集中每个图像哈希码与训练集中每个文本哈希码之间的距离以及测试集中每个文本哈希码与训练集中所有图像哈希码之间的距离;最后对两种距离进行升序排序,并对其中指定数量的检索结果进行精度计算,完成文本-图像的跨模态检索;与现有技术相比,本专利技术的有益效果为:本专利技术在基于哈希的跨模态检索中,充分利用了数据特征模态内及模态内相似性约束条件,将其与线性分类框架融合学习,使得同一样本的文本-图像数据在经过投影变换到汉明空间中的语义特征矩阵保持了原始数据之间的鉴别力的同时,也保留了数据间的相似性;从而使得检索精度有所提高;同时由于哈希技术的应用减少了跨模态检索在时间和空间存储上的消耗,有利于检索速度的提升。附图说明图1为本专利技术实施例中所述有鉴别的全相似性保留哈希跨模态检索方法流程图示意。图2为本专利技术实施例中所述目标函数的迭代求解流程框图示意。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。参阅图1,在本专利技术实施例中,提供了一种有鉴别的全相似性保留哈希跨模态检索方法,所述方法包括步骤:S1、由图像文本对组成样本构成数据集,并将数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;具体的,本专利技术的方法通过在MATLAB上对每一样本中的文本和图像进行规整和均一化处理。S2、提取训练集中具有双模态的数据,基于数据构造有鉴别的全相似性保留哈希的目标函数:其中,T为文本特征矩阵,PT为文本特征矩阵对应的文本特征投影矩阵,V为图像特征矩阵,PV为图像特征矩阵对应的图像特征投影矩阵,Y为标签矩阵,W为线性分类器,S为语义特征矩阵,L为保留相似性的图拉普拉斯矩阵,γ,μT,μV,λ均为折衷参数;具体的,首先通过两种线性变换映射原始图像和文本特征到潜在语义空间SV=PVV和ST=PTT;然后,基于相同对象不同模态的数据具有相同语义表示的假设,本专利技术通过最小化以下函数来求解两个线性变化矩阵:随后,原始多模态数据特征可以区分分类,为了通过本专利技术的方法能够更加清晰地区分不同类别的二值代码,本专利技术希望得到的二值代码是能够反映这一特性的代表性特征;但是,如果二值代码有足够的鉴别力的话,那么它就能够通过它们的原始标签被分类;因此假设给定第i个目标的标签向量yi,然后可用一个线性分类器W∈Rk×c来预测二值代码的标签向量,即Y=WTS;其中,本专利技术的方法用最小化函数来求解;随后,为了利用标签信息,本专利技术为双模态数据之间的标签一致性建模,并且将图像和文本两种模态数据之间的语义类同度量为:同时,将图像和文本两种模态数据内本文档来自技高网
...

【技术保护点】
1.一种有鉴别的全相似性保留哈希跨模态检索方法,其特征在于,所述方法包括步骤:S1、由图像文本对组成样本构成数据集,并将所述数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;S2、提取所述训练集中具有双模态的数据,基于所述数据构造有鉴别的全相似性保留哈希的目标函数:

【技术特征摘要】
1.一种有鉴别的全相似性保留哈希跨模态检索方法,其特征在于,所述方法包括步骤:S1、由图像文本对组成样本构成数据集,并将所述数据集按照设定比例划分成特征向量训练集和测试集,并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理;S2、提取所述训练集中具有双模态的数据,基于所述数据构造有鉴别的全相似性保留哈希的目标函数:,其中,T为文本特征矩阵,PT为文本特征矩阵对应的文本特征投影矩阵,V为图像特征矩阵,PV为图像特征矩阵对应的图像特征投影矩阵,Y为标签矩阵,W为线性分类器,S为语义特征矩阵,L为保留相似性的图拉普拉斯矩阵,γ,μT,μV,λ均为折衷参数;S3、设定一阈值,采用迭代法求解所述目标函数,判断每一迭代过程中所述目标函数的解,若所述解小于或等于所述阈值,则停止迭代,并更新PV,PT,S和W;S4、基于所述目标函数的迭代解采用公式H=sign(S)计算训练集哈希码;S5、利用所述更新得到的PV和PT对所述训练集进行投影变换,将投影变换后得到的矩阵作为图像文本语义特征矩阵,使用公式H=sign(S)计算测试集哈希码;S6、计算所述测试集中每个图像哈希码与所述训练集中所有文本哈希码之间的汉明距离以及所述测试集每个文本哈希码与所述训练集中所有图像哈希码之间的汉明距离S7、升序排列和并根据排列结果查询到所述文本和图像在模态中对应的索引,并按照相关度排名后取前r个作为检索结果,并基于所述模态双模态数据的标签信息对r个所述检索结果...

【专利技术属性】
技术研发人员:荆晓远朱治兰孙莹吴飞董西伟
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1