【技术实现步骤摘要】
一种边缘计算环境下缓存数据的近似匹配方法
[0001]本专利技术属于计算领域,特别涉及一种边缘计算环境下缓存数据的近似匹配方法。
技术介绍
[0002]随着边缘智能普及,终端设备上出现越来越多的人工智能应用,如淘宝中的“拍立淘”功能,终端用户可以利用“拍立淘”拍摄身边的物体,上传到边缘服务器进行处理。同一个边缘服务器下,由于地理位置相近,“拍立淘”拍摄的周围物体会存在大量的相似照片,这些相似图片上传到边缘服务器会得到相同的计算结果,存在重复计算的问题。由于边缘服务器计算能力是有限的,此类重复计算问题会消耗计算资源,并提高降低终端用户的等待时延。
[0003]为了解决这个问题,可以通过近似匹配在边缘服务器缓存空间中查找相似数据,选取可复用的计算结果以减少重复计算,降低终端用户的等待时延。在实际应用当中,不同的应用程序会产生不同的输入数据类型(如图像、音频和文本)。因此,近似匹配的第一步是将异构的原始输入数据在度量空间中转换为多维向量,在此基础上可以计算向量之间的欧氏距离来衡量它们的相似性。以上过程会面临两个挑战,一方面由于在图像识别和语音识别的场景中几乎不存在两个完全相同的图像和语音,只能查找最相似的数据而非完全相同的数据,因此传统的基于精确匹配的缓存选择策略不再适用。另一方面终端用户每天都会产生海量的数据,在海量数据中查找相同或相似的数据需要耗费大量的时间,并且由于数据维度的增加,搜索难度会更高。
技术实现思路
[0004]专利技术目的:为了克服现有技术中存在的问题,本专利技术提供一种边缘计算 ...
【技术保护点】
【技术特征摘要】
1.一种边缘计算环境下缓存数据的近似匹配方法,其特征在于,包括如下步骤:(1)基于动态局部敏感哈希算法即Dynamic
‑
LSH的数据初选:首先采取较为严格的哈希策略将缓存数据存入哈希桶,使得同一个桶中的数据高度相似;然后通过测量相邻哈希桶之间的距离对距离相近的桶合并,在增加同一桶中高相似度数据的个数的同时减少低相似度数据的个数;(2)确定初始桶粒度和桶间距取值:根据两个向量v1和v2在LSH算法下分配到同一个哈希桶的概率函数确定初始桶粒度的大小,同时由边缘系统中数据分布情况动态调整桶间距;(3)基于加权K近邻算法即Weighted
‑
KNN的数据再选取:对由Dynamic
‑
LSH算法获取的相似数据集合中的数据进行更加准确地再查找,同时考虑每类数据包含的样本数和每个数据与输入数据之间的欧氏距离以定义每个数据的权值。2.根据权利要求1所述的一种边缘计算环境下缓存数据的近似匹配方法,其特征在于,所述步骤(1)中基于动态局部敏感哈希算法的数据初选的具体步骤如下:(1.1)利用尺度不变特征变换算法对高维输入数据进行特征提取,将其转化为特征向量,以键值对(key,value)的形式存入边缘服务器的缓存空间中;(1.2)确定严格的哈希策略;选取尽量小的初始桶粒度r0;(1.3)动态合并相似桶;计算相邻的桶b
x
与b
y
之间的距离当距离小于一定的桶间距阈值d
threshold
时,两个桶中的数据是邻近的,然后将这两个桶合并,将两个桶标记为合并状态;(1.4)哈希桶质心计算;每一个哈希桶中都会有大量的数据,用以计算桶质心的时间复杂度将会大幅度提高,采用随机抽样调查的方式抽取部分数据来计算桶质心。3.根据权利要求1所述的一种边缘计算环境下缓存数据的近似匹配方法,其特征在于,所述步骤(2)中确定初始桶粒度和桶间距取值的具体步骤如下:(2.1)计算两个向量v1和v2在LSH算法下分配到同一个哈希桶概率如下:其中r为衡量哈希函数桶粒度的参数,f
p
(x)是p
‑
稳态分布绝对值的概率密度函数,参数c=||v1‑
v2||
p
在数据集中数据分布紧密度D
k
的最小值处取值,即:c=λ
×
min(D
k
);(2.2)初始化λ、置信概率p0、离群率阈值outlier0,由(2.1...
【专利技术属性】
技术研发人员:毛莺池,郦睿翔,郭宏乐,徐淑芳,平萍,王龙宝,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。