一种面向大规模数据的自适应最近邻查询方法技术

技术编号：20866026 阅读：23 留言：0更新日期：2019-04-17 09:15

本发明专利技术公开了一种面向大规模数据的自适应最近邻查询方法，特点是首先获取包含多个原始大规模数据的数据集并给定查询点，通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始数据集构造成若干个子数据集，然后学习得到与每个子数据集对应的哈希编码，然后将所有哈希编码按序排列得到所有子数据集的编码索引，再获取查询点在每个子数据集下的查找表，接下来获取查询点在对应的子数据集下的候选集并融合，得到对给定的查询点的最近邻查询结果；这种子数据集的构造方式能更好地挖掘数据集分布的信息，最大限度地降低了编码的冗余，提升了对给定的查询点的最近邻查询过程的查询精度和查询效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向大规模数据的自适应最近邻查询方法
本专利技术涉及信息检索
，尤其是一种面向大规模数据的自适应最近邻查询方法。
技术介绍
目前，哈希技术是大规模数据检索的一种有效解决方案。相关技术中，对整个数据集，采用统一的哈希编码方式，得到的哈希编码的长度也是一致的。但实际大规模数据中，数据集的分布没有规律性。相关哈希技术没有充分地利用数据集的分布信息，有待改进。
技术实现思路
本专利技术所要解决的技术问题是提供一种面向大规模数据的自适应最近邻查询方法，该方法能够根据数据集分布的密度大小将其量化为不同长度的哈希编码，有效减少数据集的编码冗余，提高检索准确性。本专利技术解决上述技术问题所采用的技术方案为：一种面向大规模数据的自适应最近邻查询方法，包括以下步骤：①获取包含多个原始大规模数据的原始大规模数据集并给定查询点，通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集，通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中，得到查询点在每个子数据集中对应的映射数据；②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集，并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度；③将每个子数据集分别映射到乘积空间，通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码，然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引；④根据所有子数据集的编码索引，在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距...

【技术保护点】
1.一种面向大规模数据的自适应最近邻查询方法，其特征在于包括以下步骤：①获取包含多个原始大规模数据的原始大规模数据集并给定查询点，通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2

【技术特征摘要】
1.一种面向大规模数据的自适应最近邻查询方法，其特征在于包括以下步骤：①获取包含多个原始大规模数据的原始大规模数据集并给定查询点，通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集，通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中，得到查询点在每个子数据集中对应的映射数据；②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集，并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度；③将每个子数据集分别映射到乘积空间，通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码，然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引；④根据所有子数据集的编码索引，在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射，得到查询点在每个子数据集下的查找表；⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表，分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点...

【专利技术属性】
技术研发人员：任艳多，钱江波，孙瑶，胡伟，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人