当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于B+树的高维磁盘索引结构和图像检索方法技术

技术编号:13290592 阅读:61 留言:0更新日期:2016-07-09 09:11
本发明专利技术涉及一种基于B+树的高维磁盘索引结构,包括以下步骤:离线索引阶段,对多媒体数据提取高维特征;使用哈希映射方法将高维特征映射为哈希编码;随机生成排列次序,并重新排列哈希编码;将编码按照格雷码序,插入基于磁盘的B+树存储结构中;重复上述步骤L次,形成磁盘索引结构。在线查询阶段,对于查询的多媒体数据,经过提取特征、哈希编码、随机编码排列后得到哈希编码,搜索该编码在磁盘索引的插入位置并返回该位置附近的数据作为候选集,去除重复并排序得到检索结果。本发明专利技术结合哈希映射方法与B+树存储结构的优势,在提高索引结构检索准确率的同时,增大了索引结构的存储容量。

【技术实现步骤摘要】

本专利技术涉及图像索引与检索
,具体涉及一种基于B+树的高维磁盘索引结构和图像检索方法
技术介绍
近年来,随着互联网技术的迅速发展和普及,尤其是社交应用和电子商务应用的不断发展,图像数据呈快速增长趋势。如何快速、准确地从图像大数据中检索到用户所需要的信息,成为了一个亟待解决的重要问题。传统基于文本的检索方式依赖于网页中的文本信息,但这些文本信息与图像数据内容本身关联性较弱,因此准确性不高。而基于内容的图像检索则能够克服上述不足,受到学术界和工业界的重视。基于内容的图像检索的常用方法是“近邻检索(NearestNeighborsSearch)”,即根据查询数据的特征,从大量的高维数据中检索并返回与查询特征距离相近的数据。解决此类问题往往需要使用高维数据的索引和检索技术,因此研究大规模高维数据的索引结构和检索算法,对于基于内容的图像大数据检索的应用至关重要。大量的研究表明,“准确”的近邻检索算法在数据维度较高的情况下,性能会退化成线性搜索,这种现象被称为“维数灾难”。比如J.L.Bentley等人在文献“Multidimensionalbinarysearchtreesusedforassociativesearching”中提出的KD树算法,在低维空间有效,但在高维空间性能下降严重。然而常用的图像特征维数都比较高,这也限制了这类算法在基于内容的图像检索领域的应用。为了缓解“维数灾难”问题,近年来,大量的研究开始关注“近似”近邻检索(ApproximateNearestNeighbor,ANN)方法,ANN方法的目的是通过牺牲一定的准确率来换取检索效率的提高,其主要思路是通过离线建立高维数据索引结构,提高在线检索的速度。高维数据索引结构经过多年研究,一般可以分成基于空间分割的树形结构和基于哈希映射的索引结构。近年来,基于哈希映射的索引结构由于在实际应用中的优秀表现,获得了广泛关注。其原理是将近邻数据映射到同一个哈希桶,利用哈希冲突过滤大量非近邻数据从而提高检索效率。通过设计合理的哈希映射函数,基于哈希映射的索引结构能实现次线性时间复杂度的检索效率。然而目前基于哈希映射的高维索引主要是针对内存设计的方法,当数据量非常大,内存无法载入所有的数据时,这类方法将无法使用。相对内存而言,磁盘容量大、价格低廉,非常适合用于大数据量的基于内容的图像检索领域。由于磁盘的IO效率比内存要低,因此如何设计一种合理的索引结构来优化磁盘的IO策略,同时保持基于哈希的索引算法的性能成为解决高维索引的关键问题。
技术实现思路
针对现有技术的不足,本专利技术提出了一种基于B+树的高维磁盘索引结构,用于解决高维数据的索引和快速检索问题。该专利技术结合了哈希映射算法的检索效率高和B+树结构磁盘IO效率高的特性,能够很好地支持大规模图像高维数据的索引;并且在存储时按照格雷码排序存储索引,使得汉明距离相近的数据存储位置更加靠近,提高了检索准确率和速度。为了达到以上目的,本专利技术采用的技术方案如下:本专利技术提出了一种基于B+树的高维磁盘索引结构,用于对图像高维数据进行磁盘索引,该高维磁盘索引结构的建立方法包括以下步骤:(1)对需要建立索引的图像提取一种或多种高维特征;(2)基于步骤(1)中的高维特征,使用哈希映射方法将高维特征映射为若干比特的哈希编码;(3)基于步骤(2)生成的哈希编码进行随机编码排列,按照某种随机生成的次序重新排列步骤(2)生成的哈希编码;(4)基于步骤(3)生成的哈希编码,将该编码按照某种顺序插入到基于磁盘的B+树中;(5)重复步骤(3)、(4),将全部哈希编码插入并保存到基于磁盘的B+树结构中,形成高维数据磁盘索引结构。进一步,所述步骤(1)中所述提取高维特征,是对图像提取颜色、纹理或形状等特征。进一步,所述步骤(2)中的哈希映射方法,包括各类将高维数据压缩编码成二进制的映射方法,这些哈希映射方法在压缩数据的同时能够保持局部敏感特性,即任意两个距离测度(如L1距离、欧式距离等距离测度)小的数据,经过编码之后的汉明距离小。进一步,所述步骤(3)中的随机编码排列,首先随机生成一种次序,并将步骤(2)中的编码按照这种次序重新排列,得到新的编码。进一步,所述步骤(4)中的某种顺序,包括二进制编码的字典序和格雷码序。进一步,所述步骤(5)中重复步骤(3)、(4)L次,表明每一个高维特征将会生成L个哈希编码,保存到L个基于磁盘的B+树索引。本专利技术还提出了一种采用上述基于B+树的高维磁盘索引结构的图像检索方法,其步骤包括:(a)采用上述磁盘索引建立方法建立基于B+树的高维数据磁盘索引结构;(b)对于查询图像,经过与上述步骤(1),(2)相同的特征提取和哈希映射方法,得到哈希编码;(c)使用上述步骤(3)中相同的排列次序,重新排列步骤(b)的哈希编码,得到重新排列的哈希编码;(d)在上述步骤(a)对应的基于B+树的高维数据磁盘索引结构中找到步骤(c)得到的哈希编码的插入位置;(e)在上述步骤(d)得到的插入位置的附近选取若干个数据,作为候选结果;(f)重复上述步骤(c)、(d)、(e),得到候选结果;(g)基于上述步骤(f)的候选结果,去除重复结果,得到去除重复后的候选结果集合,对候选结果集合排序返回检索结果。进一步,所述步骤(e)中的若干个数据是一个用户设定的参数,用来控制检索结果的数量。进一步,所述步骤(f)重复步骤(c)、(d)、(e)L次,从L个B+树索引中得到若干个候选结果。进一步,所述步骤(g)中的排序可以按照步骤(b)得到的哈希编码与候选结果的哈希编码的汉明距离排序,也可以按照查询特征与候选结果特征的某种距离测度排序。所述查询特征和所述候选结果特征是指对图像提取的颜色、纹理或形状等特征。本专利技术的有益效果在于:(1)支持大规模图像数据的快速索引和检索;(2)支持多种哈希映射编码方法,灵活性好;(3)支持索引增量添加;(4)基于格雷码排序的优化提高了算法性能。本专利技术之所以具有上述有益效果,其原因在于:本专利技术采用了基于磁盘的B+树结构来存储索引,与其他索引结构相比,该结构支持数据的动态添加并且磁盘IO效率高,使得检索速度快;本专利技术采用了随机编码排列方法,该方法保证了次线性检索复杂度,提高了检索准确率;专利技术了基于格雷码序的哈希编码排列方法,优化了检索算法并进一步提高了检索准确率。附图说明图1是本专利技术建立索引的技术流程图。图2是B+树存储结构示意图。...

【技术保护点】
一种基于B+树的图像高维磁盘索引方法,其步骤包括:(1)对需要建立索引的图像提取一种或多种高维特征;(2)使用哈希映射方法将所述高维特征映射为若干比特的哈希编码;(3)对所述哈希编码进行随机编码排列,按照随机生成的次序重新排列所述哈希编码;(4)按照某种顺序将步骤(3)所得的哈希编码插入到基于磁盘的B+树中;(5)重复步骤(3)、(4),形成高维数据的磁盘索引结构。

【技术特征摘要】
1.一种基于B+树的图像高维磁盘索引方法,其步骤包括:
(1)对需要建立索引的图像提取一种或多种高维特征;
(2)使用哈希映射方法将所述高维特征映射为若干比特的哈希编码;
(3)对所述哈希编码进行随机编码排列,按照随机生成的次序重新排列所述哈希编码;
(4)按照某种顺序将步骤(3)所得的哈希编码插入到基于磁盘的B+树中;
(5)重复步骤(3)、(4),形成高维数据的磁盘索引结构。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)提取的高维特征,是对图像提取
颜色、纹理或形状特征。
3.如权利要求1所述的方法,其特征在于,所述步骤(2)中的哈希映射方法,包括各类将
高维数据压缩编码成二进制的映射方法,在压缩数据的同时保持局部敏感特性,即任意两
个距离测度小的数据,经过编码之后形成的哈希编码的汉明距离小。
4.如权利要求1所述的方法,其特征在于,所述步骤(3)中的随机编码排列,首先随机生
成一种次序,并将步骤(2)中的哈希编码按照这种次序重新排列,得到新的哈希编码。
5.如权利要求1所述的方法,其特征在于,所述步骤(4)中的某种顺序包括二进制编码的
字典序或者格雷码序。
6.如权利要求1所述的方法,其特征在于,所述步骤(5)重复步骤(3)、(4)L次,即每
一个高维...

【专利技术属性】
技术研发人员:赵仕荣张健彭宇新
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1