基于方差索引的局部敏感哈希方法技术

技术编号:40938384 阅读:27 留言:0更新日期:2024-04-18 14:56
本发明专利技术提供了基于方差索引的局部敏感哈希方法,包括以下步骤:步骤一:相似性构建亲和矩阵:根据给定的样本数据集利用数据间的相似度构建亲和矩阵;步骤二:利用谱聚类方法对亲和矩阵进行聚类:对构建好的亲和矩阵使用谱聚类获取聚类结果。本发明专利技术通过构造相似性矩阵然后通过谱聚类算法将空间中的数据划分为多个类簇,在同属一个类中的数据使用方差计算构建哈希索引,能够选择合适的桶宽参数,动态调整桶宽的大小,使得每个哈希桶中的数据相对均匀。通过方差计算,每个哈希桶中的数目并不是全部相等的,但相比于E2LSH算法,每个哈希桶中的数据相对均匀,不同哈希桶的数据严重不平衡的情况有了较大的改善。

【技术实现步骤摘要】

本专利技术涉及一种算法,具体为基于方差索引的局部敏感哈希方法,属于哈希算法。


技术介绍

1、网络和多媒体信息越来越成为人们日常生活中不可分割的一部分,越来越多的人参与到了信息的生产与流通过程之中,这使得网络上的信息量以爆炸式的形势增长。从这些海量数据中搜索近似对象是很多应用的关键,如近似检索、推荐系统、k近邻问题等。传统的相似性搜索算法大多是分支界限算法,创建的索引结构一般表现为树形,如r树,k-d树等。这类算法一般用于解决最近邻查询问题,即返回与查询数据最相似的数据。这些算法在低维数据空间中表现良好,但是当数据的维度提高时,算法的复杂度呈指数级上升,算法性能会急剧下降。精确欧式位置敏感哈希是局部敏感哈希lsh在欧式空间的一种实现方案,是目前解决大规模高维数据近似近邻查找问题的最优方法。

2、e2lsh为了提高算法的召回率,使用多张哈希表。但该算法没有考虑数据的分布特性,因为哈希函数是基于p-稳态分布随机生成的,造成数据集中的数据一般都不是均匀分布的,每个哈希表的哈希桶中的数据会受到原始数据分布的影响,存在部分哈希桶中的数据集中,而另一部分哈希本文档来自技高网...

【技术保护点】

1.基于方差索引的局部敏感哈希方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于方差索引的局部敏感哈希方法,其特征在于:在所述步骤一中,首先根据给定的样本数据集利用数据间的相似度构建亲和矩阵,设图像空间位于n个联合线性空间相互独立,子空间对应的维数为,将维数据排列在一起构成数据矩阵X,其中X的每一行表示一个维数据;

3.根据权利要求1所述的基于方差索引的局部敏感哈希方法,其特征在于:在所述步骤二中,聚类的目的是将数据点分割到原本对应的子空间中,理想情况下每一类对应一个子空间。

4.根据权利要求3所述的基于方差索引的局部敏感哈希方法,其特征在...

【技术特征摘要】

1.基于方差索引的局部敏感哈希方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于方差索引的局部敏感哈希方法,其特征在于:在所述步骤一中,首先根据给定的样本数据集利用数据间的相似度构建亲和矩阵,设图像空间位于n个联合线性空间相互独立,子空间对应的维数为,将维数据排列在一起构成数据矩阵x,其中x的每一行表示一个维数据;

3.根据权利要求1所述的基于方差索引的局部敏感哈希方法,其特征在于:在所述步骤二中,聚类的目的是将数据点分割到原本对应的子空间中,理想情况下每一类对应一个子空间。

4.根据权利要求3所述的基于方差索引的局部敏感哈希方法,其特征在于:在所述步骤二中,首先计算度矩阵和拉普拉斯矩阵,接着计算拉普拉斯矩阵前k个特征值对应的特征向量,最后将这k个特征值对应的特征向量组成矩阵u,u的每一行成为一个新生成的样本点,对这些新生成的样本点进行k-means聚类,最后输出聚类的结果。

5.根据权利要求4所述的基于方差索引的局部敏感哈希方法,其特征在于:在所述步骤二中,

6.根据权利要求1所述的基于方差索引...

【专利技术属性】
技术研发人员:王秋芬张雨辰唐立王永新郭梦飞陆天羽刘顺利薛迎强
申请(专利权)人:南阳理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1