基于Laplacian算子和LSH技术的检索方法及其系统技术方案

技术编号：30431175 阅读：12 留言：0更新日期：2021-10-24 17:24

本发明专利技术公开基于Laplacian算子和LSH技术的检索方法及其系统，利用Laplacian算子对函数剧烈变化特别敏感的特性，首先把数据投影到随机生成的法向量上，利用高斯核密度函数把投影转换为数据的概率密度分布，并把高斯核Laplacian算子应用于投影数据求密度分布的二阶导数，从而找到数据投影分布的剧烈变化位置作为超平面的偏移量。本发明专利技术能同时兼顾效率、精度和召回率,具有很好的适应性，进一步拓展了局部敏感哈希方法针对大规模高维数据检索的多种分布适应性能力，能够满足各种分布特性数据的应用需求。数据的应用需求。数据的应用需求。

全部详细技术资料下载

【技术实现步骤摘要】
基于Laplacian算子和LSH技术的检索方法及其系统

[0001]本专利技术涉及机器学习和大规模高维数据检索应用领域，尤其涉及基于Laplacian算子和LSH技术的检索方法及其系统。

技术介绍

[0002]随着数据采集及网络技术的发展，各行各业每时每刻都产生着海量数据，这些数据的来源、意义各不相同，具有高维、多样性特征。例如，环境监测无线传感器网络(Environment Wireless Sensor Networks：EWSN)在环境监测中被广泛应用，其同时采集的数据种类多样，各种数据的值域范围、变化规律各不相同，从而形成具有不同分布特性的高维海量数据环境。要充分利用这些数据，并为决策提供支持，也就对高维、海量数据的快速、准确检索提出了更高的要求。因此,构建一个性能良好的大规模高维数据索引结构将对具有高维、不同分布特性、海量数据应用有非常重要的意义。在高维海量数据集上的最近邻查找(Nearest Neighbor Search:NNS)是一项意义重大且具有高度挑战性的工作，它被广泛应用于机器学习和数据挖掘的相关领域，例如分类技术、推荐系统和信息检索等。
[0003]在低维空间中，最近邻查询问题已经得到了较好的解决，如K
‑
D树、R树、SR树等方法提供了一些有效的解决方案。但是在高维海量数据空间中，最近邻查找会导致查询时间和空间消耗呈指数式增长，也就使现有一些低维度数据检索方法无法满足数据检索要求。针对高维海量数据，麻省理工的Indyk等学者开创性地提出基于局部敏感哈希(Locali...

【技术保护点】

【技术特征摘要】
1.基于Laplacian算子和LSH技术的检索方法，其特征在于：其包括以下步骤：步骤1，生成k个哈希函数组成的哈希函数簇，每个哈希函数构造时，把数据投影到符合高斯分布的随机向量上，根据投影的高斯核概率密度分布和高斯核Laplacian算子求得的投影二阶导数确定偏移量，由随机向量和偏移量共同确定一个哈希函数；步骤2，数据存储过程中利用哈希函数簇逐个计算所要存储数据的哈希编码，并把数据ID存入对应编码的哈希桶；步骤3，数据查询阶段，用相同的哈希函数簇计算查询对象的哈希编码，根据哈希编码定位哈希桶得到候选数据集，再逐个计算出候选数据集与查询对象的实际距离，排序并返回查询结果。2.根据权利要求1所述的基于Laplacian算子和LSH技术的检索方法，其特征在于：步骤1的哈希函数簇构造步骤如下：步骤1
‑
1，从数据集X中随机获取N
′
＝N*sr个样本形成样本数据集X
′
，其中sr为采样率，0<sr<＝1；N＝|X|为原数据集元素个数。步骤1
‑
2，生成每个维度取值范围，每个维度取值范围依次叠加形成数组cutPos；步骤1
‑
3，逐个生成k个投影平面(w[i],b)，k为编码长度；每个投影平面先生成d
′
个符合正态分布的随机向量，利用cutPos[.]确定选中概率为投影平面的w[i]中的d
′
个元素赋值，其余赋值为0，同时计算每个投影平面的偏移量b。3.根据权利要求2所述的基于Laplacian算子和LSH技术的检索方法，其特征在于：步骤1
‑
3中偏移量b的计算步骤如下：步骤1
‑3‑
1，样本数据集X
′
在w
i
所表示的平面法向量上进行投影；步骤1
‑3‑
2，计算高斯核带宽h，计算公式为：h＝1.06An
‑
1/5
ꢀꢀꢀꢀꢀ
(13)；其中A＝min(标准差σ,四分位数/1.34)；步骤1
‑3‑
3，利用高斯核函数进行概率密度估计得到高斯核密度概率分布函数；步骤1
‑3‑

【专利技术属性】
技术研发人员：张仕，赖会霞，
申请(专利权)人：福建师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人