一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统技术方案

技术编号：19263402 阅读：229 留言：0更新日期：2018-10-27 02:20

本发明专利技术公开了一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统，其中，基于卫星系图的高维数据的近似最近邻检索方法包括：(1)对高维数据库点集建立卫星系图；(2)对待检索点，随机选择若干数据点作为候选点集，在卫星系图上进行贪婪近似最近邻检索；(3)将得到的候选点集中的给定数量的点作为结果，即待检索点的最近邻点集。利用本发明专利技术，可以有对数级的检索复杂度，不仅可以大大提高一定时间内的检索精度，而且可以大幅度减小检索时的内存占用空间和建立索引所需要的时间。

An approximate nearest neighbor search method and retrieval system for high-dimensional data based on satellite system diagram

The invention discloses an approximate nearest neighbor retrieval method and retrieval system for high-dimensional data based on satellite gallery, wherein the approximate nearest neighbor retrieval method for high-dimensional data based on satellite Gallery includes: (1) establishing satellite gallery for high-dimensional database point set; (2) randomly selecting several data points as candidate points for retrieval points; Set, greedy approximate nearest neighbor search is performed on the satellite map; (3) A given number of points in the candidate point set are taken as the result, that is, the nearest neighbor point set of the points to be retrieved. By using the invention, the retrieval complexity can be of logarithmic order, the retrieval precision can be greatly improved within a certain period of time, and the memory occupation space and the time needed to establish the index can be greatly reduced.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统
本专利技术涉及数据检索
，具体涉及一种基于卫星系图的高维数据的近似最近邻检索方法及检索系统。
技术介绍
近年来，近似最近邻检索技术应用越来越广泛，尤其在计算机视觉、机器学习、数据挖掘、自然语言处理、文本和图像检索等需要处理大规模高维数据的领域中起到了十分重要作用。近似最近邻检索讨论的对象是大规模高维数据点集合，要求能快速地在这些数据点中找到距离某个待检索点最近的若干数据点。对于大规模高维数据，在原始空间进行遍历式暴力检索的计算开销是昂贵的，为了提高最近邻检索的效率，学者们提出了一系列近似最近邻检索算法。常见的近似最近邻检索方法主要包括：基于树结构的方法、基于哈希的方法、基于积量化的方法和基于图的方法。由于现实工业生产场景下数据存在复杂的结构，在处理超大规模高维实数向量数据时，现有方法难以获得良好的效果。基于树结构的方法对高维数据进行近似最近邻检索时，随着数据维度升高，其检索精度大大下降。而基于哈希的方法，其检索效率受到哈希函数表达能力和哈希表自身查找效率极大的限制。基于积量化的方法在低精度范围检索时有较好的效果，但在高精度检索的场景下，其精度上限受到量化误差产生的极大限制。最近基于图的方法蕴含着巨大的潜力。一些方法已经在实验上证明超过传统的基于哈希、积量化和树结构的方法。然而基于图的方法的效率受到图内在结构的影响，现存的一些基于图结构的方法各自存在建立索引过程耗时、检索效率较低、占据内存大等问题。为了充分体现本专利技术方法的高效性，本专利技术方法将会与一系列基于图结构的算法进行比较。包括，在2...

【技术保护点】
1.一种基于卫星系图的高维数据的近似最近邻检索方法，其特征在于，包括以下步骤：(1)对高维数据库点集建立卫星系图；(2)对待检索点，随机选择若干数据点作为候选点集，在卫星系图上进行贪婪近似最近邻检索；(3)将得到的候选点集中的给定数量的点作为结果，即待检索点的最近邻点集。

【技术特征摘要】
1.一种基于卫星系图的高维数据的近似最近邻检索方法，其特征在于，包括以下步骤：(1)对高维数据库点集建立卫星系图；(2)对待检索点，随机选择若干数据点作为候选点集，在卫星系图上进行贪婪近似最近邻检索；(3)将得到的候选点集中的给定数量的点作为结果，即待检索点的最近邻点集。2.根据权利要求1所述的基于卫星系图的高维数据的近似最近邻检索方法，其特征在于，步骤(1)的具体步骤为：(1-1)建立高维数据库点集的近似最近邻图；(1-2)对于数据库中任意一点a作为待考察点，将其在近似最近邻图中的邻居，以及邻居的邻居取出，构成索引点集；将索引点集中的所有点与待考察点a计算距离，并按距离从小到大的顺序排序，保留距离最近的L个点，L为预定值，将剩下的点从索引点集中删除；(1-3)从索引点集内与a距离最小的点开始，从索引点集删除后加入结果点集，并验证当前结果点集是否满足充分辐射性，若不满足，则删除新加入点；(1-4)当结果点集大小达到预定值R或者索引点集中的点被遍历，将该结果点集作为卫星系图中点a的邻居点集；(1-5)重复步骤(1-2)～步骤(1-4)，直至数据库所有点被遍历，得到中间结果图；(1-6)从数据集中选取任意一点d，从点d出发，利用深度优先搜索，寻找中间结果图的强连通分量；(1-7)对于连续被发现的任意两个连通分量，添加双向边到中间结果图中；(1-8)重复步骤1-6～步骤1-7，直至达到最大迭代次数T，T为预定值，得到卫星系图。3.根据权利要求2所述的基于卫星系图的高维数据的近似最近邻检索方法，其特征在于，步骤(1-1)中，所述的近似最近邻图为有向图，对于图中任意一点，其出边数量为一固定值k，且这k条边所连接的邻居不全是其最近的k个邻居。4.根据权利要求2所述的基于卫星系图的高维数据的近似最近邻检索方法，其特征在于，步骤(1-3)中，所述充分辐射性为：对结果点集中任意两点b和c，边ab和ac的夹角大于等于m度，其中，m为预设值。5.根据权利要求1所述的基于卫星系图的高维数据的近似最近邻检索方法，其特征在于，步骤(2)中，所述的贪婪近似最近邻检索，包括：(2-1)建立空的候选点集，将数据库点集中随机选择的若干点，加入候选点集，并标记为未访问点；(2-2)将候选点集中距离待检索点最近的未访问点作为考察点，并标记为已访问点；(2-3)通过查询卫星系图，得到考察点的邻居，将所有邻居标记为未访问点...

【专利技术属性】
技术研发人员：付聪，蔡登，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人