一种基于位置差异的高精度近邻搜索算法制造技术

技术编号：15063375 阅读：42 留言：0更新日期：2017-04-06 12:13

本发明专利技术涉及一种基于位置差异的高精度近邻搜索算法，其是将高维距离位置差异因子中第i个参考点i个分量取值为‑1，其他分量取值为1；将所有长度为1的单位向量设置为参考点；计算第i个参考点到所有数据点的距离Disi；依据距离Disi大小进行排序并产生一个有序序列；计算样本点A到长度为2k*ε子序列所有点的精确欧式距离，ε为子序列长度调节因子；对得到的距离值使用部分排序算法获得最小的k个欧式距离；若所有应用了参考点的数据点的最近邻点已经被计算，则计算所有数据点和终点的高维距离位置差异因子，否则i＝i+1，回到第一步。本发明专利技术在没有增加算法的时间复杂度前提下提高了算法精度，还保留了在高维数据集上不依赖索引、高效、在线等优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，具体涉及一种基于位置差异的高精度近邻搜索算法。
技术介绍
k近邻搜索算法用于搜索数据集中距离某一点最近的k个最近邻点。当前，该算法已经广泛应用于特征选择，模式识别，聚类，噪音检测分类等诸多领域。其中，作为早期的k近邻搜索算法，全搜索算法(FullSearchAlgorithm,简称FSA算法)是通过计算待分类点到各已知类别点的欧式距离以确定k个最近邻点，因此其时间复杂度较高(O(n2))，且适应性很差。针对FSA算法存在的缺陷，许多学者提出来了降低其时间复杂度的算法，这些算法大体可以分为两类：第一，创建搜索树以降低时间复杂度。比如，Kim和Park使用有序分拆方法来创建一个多分支搜索树以提高搜索效率；Wang和Gan将投射聚类和主轴搜索树算法相结合以减少运算时间。Chen等使用赢家更新搜索方法和下界树来改善算法效率。以上改进算法的不足之处在于，随着数据维数增加，其时间复杂度急剧变坏，且失去稳定性。第二，设置相关辅助信息以提高搜索效率。譬如，Ra和Kim通过计算待分类点到各已知类别点的平均值的差异来除去不可能数据点；Lai使用三角不等式和投影值以降低计算复杂度；Xia等在研究数据维度对最近邻搜索算法影响后提出了高维距离位置差异的近邻搜索算法(LocationDifferenceofMultipleDistancesBasedNearestNeighborsSearchingAlgorithm,简称LDMDBA算法,其参考文章为:(XiaS,XiongZ,LuoY,etal.Locationdifferenceofmultipl...

【技术保护点】
一种基于位置差异的高精度近邻搜索算法，其基于高维距离位置差异的近邻搜索算法，其特征在于，是先给定数据集D∈Rd，任取一样本点A∈D，k是要搜索的近邻数，参考点i＝1，然后包括以下流程：(1)将高维距离位置差异因子中第i个参考点i个分量取值为‑1，其他分量取值为1；(2)将所有长度为1的单位向量设置为参考点；(3)计算第i个参考点到所有数据点的距离Disi；(4)依据距离Disi大小进行排序，并产生一个有序序列；(5)计算样本点A到长度为2k*ε子序列的所有点的精确欧式距离，ε为子序列长度调节因子；(6)对上述步骤(5)得到的距离值使用部分排序算法获得最小的k个欧式距离，最小的k个欧式距离所对应的样本点即是A的最终k近邻样本；(7)如果所有应用了参考点的数据点的最近邻点已经被计算，则计算所有数据点和终点的高维距离位置差异因子，否则i＝i+1，回到上述步骤(1)。

【技术特征摘要】
1.一种基于位置差异的高精度近邻搜索算法，其基于高维距离位置差异的近邻搜索算法，其特征在于，是先给定数据集D∈Rd，任取一样本点A∈D，k是要搜索的近邻数，参考点i＝1，然后包括以下流程：(1)将高维距离位置差异因子中第i个参考点i个分量取值为-1，其他分量取值为1；(2)将所有长度为1的单位向量设置为参考点；(3)计算第i个参考点到所有数据点的距离Disi；(4)依据距离Disi大小进行排序，并产生一个有序序列；(5)计算样本点A到长度为2k*ε子序列的所有点的精确欧式距离，ε为子序列长度调节因子；(6)对上述步骤(5)得到的距离值使用部分排序算法获得最...

【专利技术属性】
技术研发人员：杨柳，毕孝儒，贾小林，
申请(专利权)人：四川外国语大学重庆南方翻译学院，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人