当前位置: 首页 > 专利查询>九江学院专利>正文

一种相似性保留跨模态哈希检索方法技术

技术编号:20221758 阅读:465 留言:0更新日期:2019-01-28 20:16
一种相似性保留跨模态哈希检索方法,该方法包括以下步骤:(1)基于相似性保留策略的目标函数构建;(2)目标函数的求解;(3)生成查询样本和检索样本集中的样本二进制哈希编码;(4)计算查询样本到检索样本集中各个样本的汉明距离;(5)使用跨模态检索器完成对查询样本的检索。本发明专利技术方法在进行哈希学习时不仅可以充分保留模态间样本的相似性,还可以充分保留模态内样本的相似性,从而使学习得到的汉明空间具有更强的鉴别能力,更有利于完成跨模态检索。

【技术实现步骤摘要】
一种相似性保留跨模态哈希检索方法
本专利技术涉及一种相似性保留跨模态哈希检索方法。
技术介绍
在当今社会的各行各业中,大量用户积累了海量的用户数据(比如搜索引擎Chrome拥有的数据量超过100PB),并且数据量还在以指数级的趋势增长,大数据时代接踵而至。大数据在互联网金融、医疗、教育、军事和交通等行业中都具有非常重要的作用,比如,将大数据与机器学习技术结合,能够为金融投资、市场决策等提供可靠的依据。如今的大数据具有以下特性:(1)体积大,数据量以PB为单位;(2)维度高,数据特征具有数以千计的维度;(3)模态多,数据种类多、形态多样化,包括图像、文本、音频和视频等形式。大数据的这些特点给机器学习带来了严峻的挑战。面对这种现状,如何合理地利用这些大数据,从中提取出有价值的信息,并为实际的项目工作提供依据是亟待解决的问题。信息检索技术可以为用户检索出有价值的信息,在信息检索领域,相似性搜索是一个研究热点,而近似最近邻搜索(ApproximateNearestNeighbor,ANN)因其搜索速度快而备受关注。ANN搜索方法主要包括树方法和哈希学习方法,两种方法各具特点。具体地,基于树的本文档来自技高网...

【技术保护点】
1.一种相似性保留跨模态哈希检索方法,假设n个对象

【技术特征摘要】
1.一种相似性保留跨模态哈希检索方法,假设n个对象在图像模态和文本模态的特征分别为和其中,d1和d2分别表示图像模态和文本模态特征向量的维度,和分别表示第i个对象在图像模态和文本模态的特征;同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的,即满足假设由n个对象的类别标记构成的标记矩阵为L=[l1,l2,…,ln]∈{0,1}l×n,其中,li(i=1,2,…,n)表示第i个对象的类别标记信息,l为类别数量;假设跨模态相似性矩阵为S∈{0,1}n×n,其中,Sij表示图像模态中第i个样本与文本模态中第j个样本的相似性;如果图像模态中第i个样本与文本模态中第j个样本是相似的(至少属于一个相同的类别),则Sij=1,否则Sij=0;其特征在于,包括以下步骤:(1)基于相似性保留策略的目标函数构建:使用基于模态间相似性保留策略和模态内相似性保留策略设计的目标函数得到n个对象图像模态和文本模态特征数据在汉明空间中的二进制哈希编码U和V,分别对应于图像模态和文本模态的哈希投影矩阵P1和P2,以及两个系数矩阵W1和W2;(2)目标函数的求解:鉴于目标函数的非凸性质,通过交替更新的方式得到目标函数的解U、V、P1、P2、W1和W2,即交替地求解如下四个子问题:固定U、V、W1和W2,求解P1和P2;固定U、V、P1和P2,求解W1和W2;固定V、P1、P2、W1和W2,求解U;固定U、P1、P2、W1和W2,求解V;(3)生成查询样本和检索样本集中的样本二进制哈希编码:基于求解得到的图像模态和文本模态的哈希投影矩阵P1和P2,为查询样本和检索样本集中的样本生成二进制哈希编码;(4)计算查询样本到检索样本集中各个样本的汉明距离:基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离;(5)使用跨模态检索器完成对查询样本的检索:使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。2.根据权利要求1所述的一种相似性保留跨模态哈希检索方法,其特征在于,所述的步骤(1)中基于模态间相似性保留策略和模态内相似性保留策略设计的目标函数形式如下:其中,α、β、γ和η为非负的平衡因子,c为二进制哈希编码的长度,I为单位矩阵,1n×1表示元素全部为1的列向量,ui为图像模态第i个样本的二进制哈希编码,vj为文本模态第j个样本的二进制哈希编码,||·||F表示...

【专利技术属性】
技术研发人员:董西伟杨茂保孙丽董小刚尧时茂王玉伟邓安远邓长寿
申请(专利权)人:九江学院
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1