当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于KPCA多表索引图像哈希检索方法技术

技术编号:15617351 阅读:132 留言:0更新日期:2017-06-14 03:42
本发明专利技术提供一种基于KPCA多表索引的图像哈希检索方法,其包括以下步骤:区分性特征选取,特征聚类以及多表索引构建以及哈希编码的优化。本发明专利技术在训练哈希投影函数之前,首先,通过基于核函数的主元分析从图像特征维度中,选取具有区分能力的特征作为训练集,并在此基础上,利用特征聚类的方法获取不同语义样本的聚类中心,找出每类的多个最佳近邻类,最后对聚类空间进行层次划分,构造多个索引表。在检索时,通过查询多张哈希索引表以此提高检索的性能。本发明专利技术将高维的图像特征映射成简单的二值码,节省了数据的存储空间;解决采用单表索引结构时,相似图像之间的离散度相差较大,或者是相似特征属性分布区间较大,即原本是相似的特征,而被映射到不同哈希编码等问题。

【技术实现步骤摘要】
一种基于KPCA多表索引图像哈希检索方法
本专利技术属于图像检索领域,涉及到基于内容的图像检索方法,适用于大规模图像检索及高维数据的最近邻搜索。
技术介绍
20世纪70年代的图像数据库管理系统是对图像的语义内容进行人工标注,并采用传统的数据库技术或者文本信息检索技术对相似图像的语义关键字进行存储和索引。其优点是基于成熟的数据库检索技术及文本内容索引技术,检索速度比较理想。但Web页面是与图像关联的文字信息而不是与图像内容有关的特征信息,导致索引的结果部分不符合用户的要求,而且随着大数据时代的到来,图像数据规模增长速度达到指数级,这种主观性和不一致性的人工标注逐渐暴露出效率底下等缺陷。为了解决基于人工标注的文本检索缺陷,1980年开始出现基于内容的图像检索技术,其方法是通过提取图像特征并建立索引,然后计算比较这些图像库中图像的特征和查询图像特征之间的距离,来决定两个图像的相似度。然而,这样必能存在两个重要的问题:1)图像特征往往是一种高维化的数据,高维数据的存储要求高,计算效率和类与类之间的区分性较低;2)对大规模数据进行线性搜索很难满足效率要求。因此,如何对图像高维特征进行有效索引成为一个亟需解决的问题。研究人员在这方面最早提出了以树形结构索引算法,主要以树形结构索引算法。基于树的查找方法如:kd-tree,M-tree,cover-tree,metric-tree等方法,然而,树形索引结构提高了检索速度,但所需的存储空间大,难以适应大规模数据检索的要求。于此同时,基于哈希的相似度查询方法倍受关注。基于哈希的相似度查找方法是将数据映射到低维度的汉明空间,也就是二值哈希编码。通过查找哈希表的方式,在计算查询样本点和数据库中的样本点的相似度时只需要简单的位操作运算,并且拥有良好的存储效率。Chum等人将局部敏感的哈希算法(Locality-SensitiveHashing,简称LSH)引入到图像哈希索引技术当中,其利用随机投影的方式对样本点特征进行哈希,通过构建一组哈希函数,将n维的原始特征索引成d维(d<<n),其形式定义:对于集合S,集合内元素间相似度计算公式为sim(a,b)。如果存在一个哈希函数h(*)满足以下条件:存在一个相似度S到概率P的单调递增映射关系,使得S中的任意两个元素满足,如果sim(a,b)≤R,则有P{h(a)=h(b)}≥P1;如果sim(a,b)≥(1+ξ)R则有P{h(a)≠h(b)}≤P2,其中ξ>0,P1>P2。2006年,Andoni等人又提出了Min哈希其对LSH哈希函数族进行了扩展,构造了ls范数距离下的LSH哈希函数,将空间随机分割为固定宽度的单元,每个单元代表一个桶,通过ls和Jaccard系数作为近似最近邻检索的度量标准。对于高维核数据,当核函数未知情况下,LSH类方法的检索效果并不好。为了解决这个问题,Kulisd等人将LSH扩展为核位置敏感的哈希(KernelizedLocality-SensitiveHashing,简称KLSH)。然而这类LSH算法采用与特征无关随机投影的方式构建哈希函数,因此为了增加哈希码的碰撞概率,需要较多的超平面对数据进行分割投影才能达到令人满意的准确率。近年来,研究者为了克服LSH方法的缺点,提出了一系列的基于机器学习的哈希函数算法,利用数据局部性的特性,通过哈希函数将高维特征映射为紧凑的二进制编码,降低了检索时间的复杂度。这些算法中最具有代表性的是利用主成分分析(PrincipleComponentAnalysisHashing,简称PCAH)进行降维,从而对特征实现索引,相对于随机的投影方式产生哈希函数的算法而言,该算法构建哈希函数依赖数据本身,提高了检索的准确率。这类算法还包括Weiss等人提出的谱哈希算法(SpectralHashing,简称SpH)。通过谱分析,利用服从p(x)分布的n个离散数据点求拉普拉斯的特征方程求解。为了使算法的性能随着哈希编码长度的增加而得到提升,ChengLi等人采用了和局部敏感的哈希算法类似的框架,利用了数据的几何结构特征产生投影向量,提出了一种密度敏感的哈希算法(DensitySensitiveHashing,简称DSH),即使在较短的哈希编码时,密度敏感的算法在检索性能上也得到了相应的提升。此外,YunChaoGong等人提出了迭代量化哈希算法(IterativeQuantizationHashing,简称ITQ)通过对相互正交的投影进行旋转,最小化哈希函数的实数值输出和当前哈希编码之间的差值的平方和来构建哈希函数,使得二值哈希编码的均衡性大大增加,性能也随之得到显著的改善。然而,现有的方法需要解决一个问题,图像特征通过哈希映射函数编码成二值哈希码,这些映射函数不仅需要很强的判别性,而且能够区分多类特征,否则难以保证检索的准确性。而现有的单表索引结构的哈希方法,通常很难学习到这样的映射函数,因此,如何在编码位数相同的情况下,使学习到的哈希函数得到更高的检索性能,本专利技术在构造哈希映射之前,先通过核主成分分析(KernelPrincipleComponentAnalysis,KPCA)提取图像特征库中,易于区分性的特征作为哈希函数训练集,并构造多个哈希索引表的方式来解决此问题。
技术实现思路
本专利技术目的在于为大规模图像哈希检索提供一种基于KPCA判别性更强的多表索引结构的查询方法(简称PMTH),为了避免采用单表索引结构时,相似图像之间的离散度相差较大,或者是相似特征属性分布区间较大,即原本是相似的特征,而被映射到不同哈希编码。导致相似的样本点,在哈希检索时被遗漏。因此,本专利技术通过KPCA方法,获取图像特征库中易于区分的特征,并通过聚类的方式学习得到多组哈希函数,最后将图像特征映射为多串哈希码,生成多个索引表的查询结构。在编码位数相同的情况下,通过查询多个索引表的方式,并在每个索引表中计算查询图像哈希系列与待检索图像哈希系列的汉明距离,设定阈值返回相似样本,以此提高检索的性能。为实现上述目的,本专利技术采用如下技术方案:一种基于KPCA多表索引图像哈希检索方法,其包括以下步骤:步骤S1:对原始高维的特征进行特征提取,采用KPCA方式获取区分性强的特征作为训练集;步骤S2:采用改进的k-means聚类算法,计算特征库中任意两个样本点特征向量xi和xj之间的欧几里得距离dis(xi,xj),找到两个距离最远的样本特征c0和c1,计算c0和c1中间点c2,并将这三个样本点作为初始聚类中心;对步骤S1得到的区分性特征进行聚类量化处理,将不同特征的多类样本n分到k个不同的组里面,并选取特征聚类中心进行二次筛选找到每类的λ个相邻类,并将这些相邻类归为一组相似簇,用于学习强判别性的哈希编码函数;步骤S3:构建多组哈希函数,根据多组哈希函数将特征库的所有样本特征和查询样本特征建立哈希索引,并将这些索引号映射到多个哈希索引表里,在查询相似样本特征时,通过检索多个哈希表,提高相似样本的召回率。进一步的,步骤S1包括以下具体步骤:step1、从特征库Rn×m中随机的选取部分样本集作为初始训练集X={x1,x2,...,xn}∈Rn×m;Step2、选择合适的核函数k(x,xi),计算训本文档来自技高网
...
一种基于KPCA多表索引图像哈希检索方法

【技术保护点】
一种基于KPCA多表索引图像哈希检索方法,其特征在于,包括以下步骤:步骤S1:对原始高维的特征进行特征提取,采用KPCA方式获取区分性强的特征作为训练集;步骤S2:采用改进的k‑means聚类算法,计算特征库中任意两个样本点特征向量x

【技术特征摘要】
1.一种基于KPCA多表索引图像哈希检索方法,其特征在于,包括以下步骤:步骤S1:对原始高维的特征进行特征提取,采用KPCA方式获取区分性强的特征作为训练集;步骤S2:采用改进的k-means聚类算法,计算特征库中任意两个样本点特征向量xi和xj之间的欧几里得距离dis(xi,xj),找到两个距离最远的样本特征c0和c1,计算c0和c1中间点c2,并将这三个样本点作为初始聚类中心;对步骤S1得到的区分性特征进行聚类量化处理,将不同特征的多类样本n分到k个不同的组里面,并选取特征聚类中心进行二次筛选找到每类的λ个相邻类,并将这些相邻类归为一组相似簇,用于学习强判别性的哈希编码函数;步骤S3:构建多组哈希函数,根据多组哈希函数将特征库的所有样本特征和查询样本特征建立哈希索引,并将这些索引号映射到多个哈希索引表里,在查询相似样本特征时,通过检索多个哈希表,提高相似样本的召回率。2.根据权利要求1所述的基于KPCA多表索引图像哈希检索方法,其特征在于:步骤S1包括以下具体步骤:step1、从特征库Rn×m中随机的选取部分样本集作为初始训练集X={x1,x2,...,xn}∈Rn×m;Step2、选择合适的核函数k(x...

【专利技术属性】
技术研发人员:郭太良叶芸林志贤林金堂邓清文
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1