当前位置: 首页 > 专利查询>河海大学专利>正文

一种边缘计算环境下缓存数据的近似匹配方法组成比例

技术编号:27833175 阅读:36 留言:0更新日期:2021-03-30 11:46
本发明专利技术公开了一种边缘计算环境下缓存数据的近似匹配方法,步骤为:1)使用尺度不变特征变换法预处理数据,提取高维数据特征并将其转化为特征向量;2)采用一种哈希函数将缓存空间中相似数据以较高的概率分到同一个哈希桶内;3)通过感知相邻哈希桶中数据的分布情况,实时调整哈希桶的大小,合并相似哈希桶;4)根据数据集合中的数据与输入数据之间的距离和每类数据的个数给每个数据赋予权重,选出权重最大的一类数据的类别作为输入数据的类别,此类别即为可复用的数据。本发明专利技术能够在可接受的数据选取时间开销内,有效地提高可复用数据选取的准确率,从而减少边缘服务器的重复计算。从而减少边缘服务器的重复计算。从而减少边缘服务器的重复计算。

【技术实现步骤摘要】
一种边缘计算环境下缓存数据的近似匹配方法


[0001]本专利技术属于计算领域,特别涉及一种边缘计算环境下缓存数据的近似匹配方法。

技术介绍

[0002]随着边缘智能普及,终端设备上出现越来越多的人工智能应用,如淘宝中的“拍立淘”功能,终端用户可以利用“拍立淘”拍摄身边的物体,上传到边缘服务器进行处理。同一个边缘服务器下,由于地理位置相近,“拍立淘”拍摄的周围物体会存在大量的相似照片,这些相似图片上传到边缘服务器会得到相同的计算结果,存在重复计算的问题。由于边缘服务器计算能力是有限的,此类重复计算问题会消耗计算资源,并提高降低终端用户的等待时延。
[0003]为了解决这个问题,可以通过近似匹配在边缘服务器缓存空间中查找相似数据,选取可复用的计算结果以减少重复计算,降低终端用户的等待时延。在实际应用当中,不同的应用程序会产生不同的输入数据类型(如图像、音频和文本)。因此,近似匹配的第一步是将异构的原始输入数据在度量空间中转换为多维向量,在此基础上可以计算向量之间的欧氏距离来衡量它们的相似性。以上过程会面临两个挑战,一方面由于在图像识别和语音识别的场景中几乎不存在两个完全相同的图像和语音,只能查找最相似的数据而非完全相同的数据,因此传统的基于精确匹配的缓存选择策略不再适用。另一方面终端用户每天都会产生海量的数据,在海量数据中查找相同或相似的数据需要耗费大量的时间,并且由于数据维度的增加,搜索难度会更高。

技术实现思路

[0004]专利技术目的:为了克服现有技术中存在的问题,本专利技术提供一种边缘计算环境下缓存数据的近似匹配方法,能够在可接受的数据选取时间开销内,有效地提高可复用数据选取的准确率,从而减少边缘服务器的重复计算。
[0005]技术方案:为实现上述目的,本专利技术提供一种边缘计算环境下缓存数据的近似匹配方法,包括如下步骤:
[0006](1)基于动态局部敏感哈希算法的数据初选:基于动态局部敏感哈希算法(Dynamic

LSH)算法首先采取较为严格的哈希策略,使得同一个桶中的数据之间都是高度相似的,没有低相似度的数据;然后通过测量相邻哈希桶之间的距离,对距离相近的桶合并,在增加同一个桶中高相似度数据的个数的同时也减少了低相似度数据的个数,从而降低LSH算法的时间复杂度,提高LSH算法查找近似数据的准确度;
[0007](2)确定初始桶粒度和桶间距取值:参数r即初始桶粒度是用来衡量哈希函数桶粒度的参数,而桶间距阈值d
threshold
与Dynamic

LSH算法的查找精度和时间复杂度密切相关,该值越大,相邻的哈希桶合并概率越大,合并之后的桶中找到与输入数据最近似的缓存项的概率越大即查找精度越高,但是时间复杂度也会越高。
[0008](3)基于加权k近邻临近算法(Weighted

KNN)的数据再选取:对由Dynamic

LSH算
法获取的相似数据集合中的数据进行更加准确地再查找,在定义每个数据的权值时,Weighted

KNN算法不仅考虑每类数据包含的样本数,还要考虑每个数据与输入数据之间的欧氏距离,某类数据个数越多,权值越大;离输入数据欧氏距离越远,权值越小;
[0009]进一步的,所述步骤(1)中基于动态局部敏感哈希算法的数据初选具体步骤如下:
[0010]LSH算法随机选取L组哈希函数族G={g1,g2,...,g
L
},每组哈希函数族由w个哈希函数组成g(v)=(h1,h2,...,h
w
),单个哈希函数公式为:
[0011][0012]其中r为哈希桶粒度大小,b
i
符合从0到r上的均匀分布,a
i
取自高斯分布的一个d维向量。每一个哈希函数h
i
(v):R
d

Z将d维向量v映射为一个整数。对于两个高维向量,经过LSH算法的投影和量化计算,只要有一组哈希函数族使得两个向量哈希到同一个哈希桶中,就认为这两个向量是近邻的。两个向量v1和v2在LSH算法下分配到同一个哈希桶概率为:
[0013][0014]其中c=||v1‑
v2||
p
,f
p
(x)是p

稳态分布绝对值的概率密度函数。
[0015]为了能够在不同的数据分布下都有较好的查询准确率,Dynamic

LSH算法首先采取较为严格的哈希策略,使得同一个桶中的数据之间都是高度相似的,没有低相似度的数据;然后通过测量相邻哈希桶之间的距离,对距离相近的桶合并,在增加同一个桶中高相似度数据的个数的同时也减少了低相似度数据的个数,从而降低LSH算法的时间复杂度,提高LSH算法查找近似数据的准确度。
[0016]在执行Dynamic

LSH算法时,应选取尽量小的初始桶粒度r0,使LSH算法在数据分布最紧密的情况下表现最佳。计算相邻的桶b
x
与b
y
之间的距离当距离小于一定的桶间距阈值d
threshold
时,就可认为两个桶中的数据是邻近的,然后将这两个桶合并,合并的时候不需要移动桶中的数据,只需要将两个桶标记为合并状态即可。考虑到随着数据规模的增长,每一个哈希桶中都会有大量的数据,用以计算桶质心的时间复杂度将会大幅度提高,因此采用随机抽样调查的方式抽取部分数据来计算桶质心。
[0017]进一步的,所述步骤(2)中确定初始桶粒度和桶间距取值具体步骤如下:
[0018]由上文概率公式可知参数c要在数据集中数据分布紧密度D
k
的最小值处取值,因此可以取:c=λ
×
min(D
k
),λ的选取依据通过以下步骤确定:
[0019]步骤1:初始化λ、置信概率p0、离群率阈值outlier0。
[0020]步骤2:由公式(2

2)在p(c)=p0,c=λ
×
min(D
k
)下得到相应的r值,利用LSH算法对当前数据集中的数据进行哈希操作;
[0021]步骤3:计算LSH中每个哈希桶的质心,进而获取每个桶的离群率outlier
i
,其中i∈[1,n],n为哈希桶数量,找出所有桶中最大的离群率
[0022]步骤4:如果则返回当前λ值作为适用于最紧密数据分布情况下哈希桶粒度的衡量标准,否则λ=λ+1,返回到步骤2继续执行寻找最佳的λ值。
[0023]得到合适的λ值后,由c=λ
×
min(D
k
)得到c的值,在置信概率p0下由上文公式得到
相应的r0的值即为初始桶粒度值。
[0024]d
threshold
的值与Dynamic

LSH算法的查找精度和时间复杂度密切相关,该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种边缘计算环境下缓存数据的近似匹配方法,其特征在于,包括如下步骤:(1)基于动态局部敏感哈希算法即Dynamic

LSH的数据初选:首先采取较为严格的哈希策略将缓存数据存入哈希桶,使得同一个桶中的数据高度相似;然后通过测量相邻哈希桶之间的距离对距离相近的桶合并,在增加同一桶中高相似度数据的个数的同时减少低相似度数据的个数;(2)确定初始桶粒度和桶间距取值:根据两个向量v1和v2在LSH算法下分配到同一个哈希桶的概率函数确定初始桶粒度的大小,同时由边缘系统中数据分布情况动态调整桶间距;(3)基于加权K近邻算法即Weighted

KNN的数据再选取:对由Dynamic

LSH算法获取的相似数据集合中的数据进行更加准确地再查找,同时考虑每类数据包含的样本数和每个数据与输入数据之间的欧氏距离以定义每个数据的权值。2.根据权利要求1所述的一种边缘计算环境下缓存数据的近似匹配方法,其特征在于,所述步骤(1)中基于动态局部敏感哈希算法的数据初选的具体步骤如下:(1.1)利用尺度不变特征变换算法对高维输入数据进行特征提取,将其转化为特征向量,以键值对(key,value)的形式存入边缘服务器的缓存空间中;(1.2)确定严格的哈希策略;选取尽量小的初始桶粒度r0;(1.3)动态合并相似桶;计算相邻的桶b
x
与b
y
之间的距离当距离小于一定的桶间距阈值d
threshold
时,两个桶中的数据是邻近的,然后将这两个桶合并,将两个桶标记为合并状态;(1.4)哈希桶质心计算;每一个哈希桶中都会有大量的数据,用以计算桶质心的时间复杂度将会大幅度提高,采用随机抽样调查的方式抽取部分数据来计算桶质心。3.根据权利要求1所述的一种边缘计算环境下缓存数据的近似匹配方法,其特征在于,所述步骤(2)中确定初始桶粒度和桶间距取值的具体步骤如下:(2.1)计算两个向量v1和v2在LSH算法下分配到同一个哈希桶概率如下:其中r为衡量哈希函数桶粒度的参数,f
p
(x)是p

稳态分布绝对值的概率密度函数,参数c=||v1‑
v2||
p
在数据集中数据分布紧密度D
k
的最小值处取值,即:c=λ
×
min(D
k
);(2.2)初始化λ、置信概率p0、离群率阈值outlier0,由(2.1...

【专利技术属性】
技术研发人员:毛莺池郦睿翔郭宏乐徐淑芳平萍王龙宝
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1