基于Laplacian算子和LSH技术的检索方法及其系统技术方案

技术编号:30431175 阅读:12 留言:0更新日期:2021-10-24 17:24
本发明专利技术公开基于Laplacian算子和LSH技术的检索方法及其系统,利用Laplacian算子对函数剧烈变化特别敏感的特性,首先把数据投影到随机生成的法向量上,利用高斯核密度函数把投影转换为数据的概率密度分布,并把高斯核Laplacian算子应用于投影数据求密度分布的二阶导数,从而找到数据投影分布的剧烈变化位置作为超平面的偏移量。本发明专利技术能同时兼顾效率、精度和召回率,具有很好的适应性,进一步拓展了局部敏感哈希方法针对大规模高维数据检索的多种分布适应性能力,能够满足各种分布特性数据的应用需求。数据的应用需求。数据的应用需求。

【技术实现步骤摘要】
基于Laplacian算子和LSH技术的检索方法及其系统


[0001]本专利技术涉及机器学习和大规模高维数据检索应用领域,尤其涉及基于Laplacian算子和LSH技术的检索方法及其系统。

技术介绍

[0002]随着数据采集及网络技术的发展,各行各业每时每刻都产生着海量数据,这些数据的来源、意义各不相同,具有高维、多样性特征。例如,环境监测无线传感器网络(Environment Wireless Sensor Networks:EWSN)在环境监测中被广泛应用,其同时采集的数据种类多样,各种数据的值域范围、变化规律各不相同,从而形成具有不同分布特性的高维海量数据环境。要充分利用这些数据,并为决策提供支持,也就对高维、海量数据的快速、准确检索提出了更高的要求。因此,构建一个性能良好的大规模高维数据索引结构将对具有高维、不同分布特性、海量数据应用有非常重要的意义。在高维海量数据集上的最近邻查找(Nearest Neighbor Search:NNS)是一项意义重大且具有高度挑战性的工作,它被广泛应用于机器学习和数据挖掘的相关领域,例如分类技术、推荐系统和信息检索等。
[0003]在低维空间中,最近邻查询问题已经得到了较好的解决,如K

D树、R树、SR树等方法提供了一些有效的解决方案。但是在高维海量数据空间中,最近邻查找会导致查询时间和空间消耗呈指数式增长,也就使现有一些低维度数据检索方法无法满足数据检索要求。针对高维海量数据,麻省理工的Indyk等学者开创性地提出基于局部敏感哈希(Locality

Sensitive Hashing:LSH)的近似最近邻数据检索方法。该方法利用哈希函数把高维数据转换为二进制序列,实现近似最近邻数据的快速检索。此后,许多学者进行了进一步的完善,如Charikar提出的基于随机超平面投影的LSH检索方法RHPLSH;Datar和Indyk提出的E2LSH增强了方法的可用性,并对后来的研究工作产生了巨大的影响。这些工作中最具有代表性的有:PCAH、KLSH、SBLSH、ITQ、DSH、OCH、GLDH等。随着深度学习的兴起,近年来又出现了大量结合深度学习和LSH的检索方法。但是,纵观当前基于局部敏感哈希的搜索解决方案,仍然存在如下四方面的问题制约着其进一步应用。
[0004](1)算法参数设置困难:大多数方法需要根据具体的数据进行参数的设置,而这些参数通常都需要人工干预,例如DSH中的聚类数量、E2LSH中的w、GLDH中的σ等;
[0005](2)难以适应数据的分布多样性:多数LSH相关算法只适用于具有特定分布特性的数据,适应性弱,从而制约了基于局部敏感哈希检索方法的应用;
[0006](3)性能需进一步提高才可实用:基于深度学习的LSH检索算法提高了近邻数据查询精度,但是,预处理时间的消耗极大限制了其应用;传统的基于LSH的检索算法虽然在性能上占优,但其效率仍旧参差不齐,有待于进一步提高;
[0007](4)空间划分难以全局考虑:部分算法在空间划分上的有较大的误差,例如PCAH沿着主成分方向对数据进行切分,RHPLSH对数据进行随机的切分,这两种方法造成了大的切分误差,DSH在一定程度上减少了切分误差,但其解决方案是局部的,缺少全局角度的考虑。

技术实现思路

[0008]本专利技术的目的在于提供基于Laplacian算子和LSH技术的检索方法及其系统。
[0009]本专利技术采用的技术方案是:
[0010]基于Laplacian算子和LSH技术的检索方法,其包括以下步骤:
[0011]步骤1,生成k个哈希函数组成的哈希函数簇,每个哈希函数构造时,把数据投影到符合高斯分布的随机向量上,根据投影的高斯核概率密度分布和高斯核Laplacian算子求得的投影二阶导数确定偏移量,由随机向量和偏移量共同确定一个哈希函数;
[0012]步骤2,数据存储过程中利用哈希函数簇逐个计算所要存储数据的哈希编码,并把数据ID存入对应编码的哈希桶;
[0013]步骤3,数据查询阶段,用相同的哈希函数簇计算查询对象的哈希编码,根据哈希编码定位哈希桶得到候选数据集,再逐个计算出候选数据集与查询对象的实际距离,排序并返回查询结果。
[0014]进

步地,作为一种优选实施方式,步骤1的哈希函数构造步骤如下:
[0015]步骤1

1,从数据集X中随机获取N

=N*sr个样本,N=|X|;其中sr为采样率,0<sr<=1;N=|X|为原数据集元素个数。
[0016]步骤1

2,生成每个维度取值范围,每个维度取值范围依次叠加形成数组cutPos;
[0017][0018]步骤1

3,逐个生成k个投影平面(w[i],b),k为编码长度;每个投影平面先生成d

个符合正态分布的随机向量,利用cutPos[.]确定选中概率为投影平面的w[i]中的d

个具体元素赋值,其余赋值为0,同时计算每个投影平面的偏移量b。
[0019]进一步地,作为一种优选实施方式,步骤1

3中偏移量b的计算步骤如下:
[0020]步骤1
‑3‑
1,样本数据集X

在w
i
所表示的平面法向量上进行投影;
[0021]步骤1
‑3‑
2,计算高斯核带宽h,计算公式为:h=1.06An

1/5
ꢀꢀ
(13);
[0022]其中A=min(标准差σ,四分位数/1.34)。
[0023]步骤1
‑3‑
3,利用高斯核函数进行概率密度估计得到高斯核密度概率分布函数;
[0024]步骤1
‑3‑
4,利用高斯核Laplacian算子求概率密度二阶导数;
[0025]步骤1
‑3‑
5,基于概率密度的二阶导数值及概率密度分布函数确定超平面的偏移值b。
[0026]进一步地,作为一种优选实施方式,步骤1
‑3‑
3的具体步骤如下:
[0027]步骤1
‑3‑3‑
1,采用一维高斯函数作为概率密度估计的核,表达式如下:
[0028][0029]步骤1
‑3‑3‑
2,得到高斯核密度函数
[0030]步骤1
‑3‑3‑
3,投影区间[proj
min
=min(X
proj

),proj
max
=max(X
proj

)]分为M等份,每等份宽度为step;第k个位置的高斯核密度值计算如下:
[0031][0032]步骤1
‑3‑3‑
4,计算高斯核密度概率分布函数:
[0033][0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Laplacian算子和LSH技术的检索方法,其特征在于:其包括以下步骤:步骤1,生成k个哈希函数组成的哈希函数簇,每个哈希函数构造时,把数据投影到符合高斯分布的随机向量上,根据投影的高斯核概率密度分布和高斯核Laplacian算子求得的投影二阶导数确定偏移量,由随机向量和偏移量共同确定一个哈希函数;步骤2,数据存储过程中利用哈希函数簇逐个计算所要存储数据的哈希编码,并把数据ID存入对应编码的哈希桶;步骤3,数据查询阶段,用相同的哈希函数簇计算查询对象的哈希编码,根据哈希编码定位哈希桶得到候选数据集,再逐个计算出候选数据集与查询对象的实际距离,排序并返回查询结果。2.根据权利要求1所述的基于Laplacian算子和LSH技术的检索方法,其特征在于:步骤1的哈希函数簇构造步骤如下:步骤1

1,从数据集X中随机获取N

=N*sr个样本形成样本数据集X

,其中sr为采样率,0<sr<=1;N=|X|为原数据集元素个数。步骤1

2,生成每个维度取值范围,每个维度取值范围依次叠加形成数组cutPos;步骤1

3,逐个生成k个投影平面(w[i],b),k为编码长度;每个投影平面先生成d

个符合正态分布的随机向量,利用cutPos[.]确定选中概率为投影平面的w[i]中的d

个元素赋值,其余赋值为0,同时计算每个投影平面的偏移量b。3.根据权利要求2所述的基于Laplacian算子和LSH技术的检索方法,其特征在于:步骤1

3中偏移量b的计算步骤如下:步骤1
‑3‑
1,样本数据集X

在w
i
所表示的平面法向量上进行投影;步骤1
‑3‑
2,计算高斯核带宽h,计算公式为:h=1.06An

1/5
ꢀꢀꢀꢀꢀ
(13);其中A=min(标准差σ,四分位数/1.34);步骤1
‑3‑
3,利用高斯核函数进行概率密度估计得到高斯核密度概率分布函数;步骤1
‑3‑

【专利技术属性】
技术研发人员:张仕赖会霞
申请(专利权)人:福建师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1