当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统技术方案

技术编号:19263402 阅读:229 留言:0更新日期:2018-10-27 02:20
本发明专利技术公开了一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统,其中,基于卫星系图的高维数据的近似最近邻检索方法包括:(1)对高维数据库点集建立卫星系图;(2)对待检索点,随机选择若干数据点作为候选点集,在卫星系图上进行贪婪近似最近邻检索;(3)将得到的候选点集中的给定数量的点作为结果,即待检索点的最近邻点集。利用本发明专利技术,可以有对数级的检索复杂度,不仅可以大大提高一定时间内的检索精度,而且可以大幅度减小检索时的内存占用空间和建立索引所需要的时间。

An approximate nearest neighbor search method and retrieval system for high-dimensional data based on satellite system diagram

The invention discloses an approximate nearest neighbor retrieval method and retrieval system for high-dimensional data based on satellite gallery, wherein the approximate nearest neighbor retrieval method for high-dimensional data based on satellite Gallery includes: (1) establishing satellite gallery for high-dimensional database point set; (2) randomly selecting several data points as candidate points for retrieval points; Set, greedy approximate nearest neighbor search is performed on the satellite map; (3) A given number of points in the candidate point set are taken as the result, that is, the nearest neighbor point set of the points to be retrieved. By using the invention, the retrieval complexity can be of logarithmic order, the retrieval precision can be greatly improved within a certain period of time, and the memory occupation space and the time needed to establish the index can be greatly reduced.

【技术实现步骤摘要】
一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统
本专利技术涉及数据检索
,具体涉及一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统。
技术介绍
近年来,近似最近邻检索技术应用越来越广泛,尤其在计算机视觉、机器学习、数据挖掘、自然语言处理、文本和图像检索等需要处理大规模高维数据的领域中起到了十分重要作用。近似最近邻检索讨论的对象是大规模高维数据点集合,要求能快速地在这些数据点中找到距离某个待检索点最近的若干数据点。对于大规模高维数据,在原始空间进行遍历式暴力检索的计算开销是昂贵的,为了提高最近邻检索的效率,学者们提出了一系列近似最近邻检索算法。常见的近似最近邻检索方法主要包括:基于树结构的方法、基于哈希的方法、基于积量化的方法和基于图的方法。由于现实工业生产场景下数据存在复杂的结构,在处理超大规模高维实数向量数据时,现有方法难以获得良好的效果。基于树结构的方法对高维数据进行近似最近邻检索时,随着数据维度升高,其检索精度大大下降。而基于哈希的方法,其检索效率受到哈希函数表达能力和哈希表自身查找效率极大的限制。基于积量化的方法在低精度范围检索时有较好的效果,但在高精度检索的场景下,其精度上限受到量化误差产生的极大限制。最近基于图的方法蕴含着巨大的潜力。一些方法已经在实验上证明超过传统的基于哈希、积量化和树结构的方法。然而基于图的方法的效率受到图内在结构的影响,现存的一些基于图结构的方法各自存在建立索引过程耗时、检索效率较低、占据内存大等问题。为了充分体现本专利技术方法的高效性,本专利技术方法将会与一系列基于图结构的算法进行比较。包括,在2011年的国际网络数据挖掘顶级会议the20thinternationalConferenceonWorldWideWeb上的《Efficientk-nearestneighborgraphconstructionforgenericsimilaritymeasures》中涉及到的一种基于近似K近邻图的方法,名为KGraph;公开号为CN105550358A的中国专利文献公开了一种高维数据的近似最近邻检索方法及检索系统,提出了一种基于树结构和近似K近邻图的复合索引方法,名为Efanna;在2016年的国际会议IEEEConferenceonComputerVisionandPatternRecognition上的文章《FANNG:FastApproximateNearestNeighbourGraphs》中,公布了一种基于FANNG图结构的方法;在康奈尔大学Arxiv网站上的技术文章《EfficientandrobustapproximatenearestneighborsearchusingHierarchicalNavigableSmallWorldgraphs》中,公布了一种带有导航点的基于多层导航剪枝图结构的名为HNSW的方法;在康奈尔大学Arxiv网站上的技术文章《ApproximateNearestNeighborSearchonHighDimensionalData—Experiments,Analyses,andImprovement(v1.0)》中,公布了一种基于角度多样化、差异化的无向图结构的名为DPG的方法;公开号为CN107729348A的中国专利文献公开了一种基于辐射伸展图的高维数据的近似最近邻检索方法及检索系统,提出了一种基于带单一导航点的辐射伸展图的名为NSG的方法。其中,NSG方法为本专利技术之前检索最高效的方法,其检索性能优于其他基于图的方法,同时大大优于其他基于树结构、哈希和积量化的方法。NSG需要首先构建一个带导航点的辐射伸展图,然后在该图上从导航点出发,对待检索点进行贪婪检索。然而,NSG方法检索时需要挑选导航点,不能随机挑选初始点。同时,该方法的剪边策略采用互斥性法则挑选边,主要参考边的长度,无法根据数据集分布调整角度大小,以适应数据集的特性,因此无法辐射数据集每一点的周边邻近区域。
技术实现思路
本专利技术提供了一种基于卫星系图的高维数据的近似最近邻检索方法,显著提升检索效率,且占用内存空间大大减少。一种基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,包括以下步骤:(1)对高维数据库点集建立卫星系图;(2)对待检索点,随机选择若干数据点作为候选点集,在卫星系图上进行贪婪近似最近邻检索;(3)将得到的候选点集中的给定数量的点作为结果,即待检索点的最近邻点集。其中,步骤(1)的具体步骤为:(1-1)建立高维数据库点集的近似最近邻图。近似最近邻图为有向图,对于图中任意一点,其出边数量为一固定值k,且这k条边所连接的邻居不全是其最近的k个邻居。(1-2)对于数据库中任意一点a作为待考察点,将其在近似最近邻图中的邻居,以及邻居的邻居取出,构成索引点集;将索引点集中的所有点与待考察点a计算距离,并按距离从小到大的顺序排序,保留距离最近的L个点,L为预定值,将剩下的点从索引点集中删除。预定值L根据数据集大小和数据维度调整。(1-3)从索引点集内与a距离最小的点开始,从索引点集删除后加入结果点集,并验证当前结果点集是否满足充分辐射性,若不满足,则删除新加入点;所述充分辐射性为:对结果点集中任意两点b和c,边ab和ac的夹角大于等于m度,其中,m为预值。(1-4)当结果点集大小达到预定值R或者索引点集中的点被遍历,将该结果点集作为卫星系图中点a的邻居点集。预定值R根据数据集大小和数据维度调整。(1-5)重复步骤(1-2)~步骤(1-4),直至数据库所有点被遍历,得到中间结果图。(1-6)从数据集中选取任意一点d,从点d出发,利用深度优先搜索,寻找中间结果图的强连通分量。(1-7)对于连续被发现的任意两个连通分量,添加双向边到中间结果图中。(1-8)重复步骤1-6~步骤1-7,直至达到一定次数上限,得到卫星系图。步骤(2)中,所述的贪婪近似最近邻检索,包括:(2-1)建立空的候选点集,将数据库点集中随机选择的若干点,加入候选点集,并标记为未访问点。(2-2)将候选点集中距离待检索点最近的未访问点作为考察点,并标记为已访问点。(2-3)通过查询卫星系图,得到考察点的邻居,将所有邻居标记为未访问点,加入候选点集,并将候选点集按照到待检索点的距离从小到大排序。(2-4)若候选点集的大小超过预定值M,删除候选点集中距离待检索点最远的若干点,使候选点集大小不超过预定值M。预定值M根据数据集大小和数据维度调整。(2-5)重复步骤(2-2)~步骤(2-4),直到候选点集中没有未访问点,将候选点集中距离待检索点最近的指定个数的点作为结果返回。本专利技术中建立卫星系图方法的输入为高维数据库点集,输出为卫星系图。贪婪近似最近邻方法的输入为待检索点、高维数据库点集和卫星系图。基于卫星系图的近似最近邻检索方法的输入为待检索点、高维数据库点集和卫星系图。本专利技术还提供了一种基于卫星系图的高维数据的近似最近邻检索系统,包括离线卫星系图部分和在线检索部分,其中,所述的离线卫星系图部分包括:最近邻图模块,用于对高维数据库点集,建立近似最近邻图;构图候选点集获取模块,用于收集对数据库点集中的某考察点进行近邻扩展得到的近邻点,构成构图索引点集;结果点集筛选模块,用于将构本文档来自技高网
...

【技术保护点】
1.一种基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,包括以下步骤:(1)对高维数据库点集建立卫星系图;(2)对待检索点,随机选择若干数据点作为候选点集,在卫星系图上进行贪婪近似最近邻检索;(3)将得到的候选点集中的给定数量的点作为结果,即待检索点的最近邻点集。

【技术特征摘要】
1.一种基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,包括以下步骤:(1)对高维数据库点集建立卫星系图;(2)对待检索点,随机选择若干数据点作为候选点集,在卫星系图上进行贪婪近似最近邻检索;(3)将得到的候选点集中的给定数量的点作为结果,即待检索点的最近邻点集。2.根据权利要求1所述的基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,步骤(1)的具体步骤为:(1-1)建立高维数据库点集的近似最近邻图;(1-2)对于数据库中任意一点a作为待考察点,将其在近似最近邻图中的邻居,以及邻居的邻居取出,构成索引点集;将索引点集中的所有点与待考察点a计算距离,并按距离从小到大的顺序排序,保留距离最近的L个点,L为预定值,将剩下的点从索引点集中删除;(1-3)从索引点集内与a距离最小的点开始,从索引点集删除后加入结果点集,并验证当前结果点集是否满足充分辐射性,若不满足,则删除新加入点;(1-4)当结果点集大小达到预定值R或者索引点集中的点被遍历,将该结果点集作为卫星系图中点a的邻居点集;(1-5)重复步骤(1-2)~步骤(1-4),直至数据库所有点被遍历,得到中间结果图;(1-6)从数据集中选取任意一点d,从点d出发,利用深度优先搜索,寻找中间结果图的强连通分量;(1-7)对于连续被发现的任意两个连通分量,添加双向边到中间结果图中;(1-8)重复步骤1-6~步骤1-7,直至达到最大迭代次数T,T为预定值,得到卫星系图。3.根据权利要求2所述的基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,步骤(1-1)中,所述的近似最近邻图为有向图,对于图中任意一点,其出边数量为一固定值k,且这k条边所连接的邻居不全是其最近的k个邻居。4.根据权利要求2所述的基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,步骤(1-3)中,所述充分辐射性为:对结果点集中任意两点b和c,边ab和ac的夹角大于等于m度,其中,m为预设值。5.根据权利要求1所述的基于卫星系图的高维数据的近似最近邻检索方法,其特征在于,步骤(2)中,所述的贪婪近似最近邻检索,包括:(2-1)建立空的候选点集,将数据库点集中随机选择的若干点,加入候选点集,并标记为未访问点;(2-2)将候选点集中距离待检索点最近的未访问点作为考察点,并标记为已访问点;(2-3)通过查询卫星系图,得到考察点的邻居,将所有邻居标记为未访问点...

【专利技术属性】
技术研发人员:付聪蔡登
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1