【技术实现步骤摘要】
一种基于元语义嵌入的云存储相似数据检测方法和系统
[0001]本专利技术涉及人工智能
,具体涉及一种基于元语义嵌入的云存储相似数据检测方法和系统。
技术介绍
[0002]随着云存储越来越普及,数据中心的数据量也随之越来越大。跨用户的重复数据删除对于降低云服务商的存储成本来说至关重要。其中数据的相似性检测在重复数据删除中起着至关重要的作用。
[0003]目前在重复数据删除中广泛使用的数据相似性检测技术有固定分块检测技术(fixed
‑
sized partition,简称FSP)和可变分块检测技术(content
‑
defined chunking,简称CDC),上述这些技术使得共享数据块的文件之间产生了依赖性,几个关键数据块的丢失或错误可能导致多个文件的丢失和错误发生,因此会降低存储系统的可靠性。为此,一些研究者又引入了冗余复制技术和纠删码技术等来提高重复数据删除系统的可靠性。但是这些方法在检测对比等过程中会导致大量的计算开销,对存储系统的性能影响很大。也有一些研究者利用了相似 ...
【技术保护点】
【技术特征摘要】
1.一种基于元语义嵌入的云存储相似数据检测方法,其中,所述云存储相似数据检测方法包括:对云存储数据域中的全部数据进行CDC分块;采用MinHash算法提取划分后全部CDC块的特征向量;基于Mask算法对任一CDC块的上下文特征向量进行处理,将处理后的所有上下文特征向量输入神经网络模型进行训练,获得云存储数据域的元语义模型;利用所述元语义模型初始化新构建的神经网络模型,获得初始化模型;提取用户上传的新数据的语义特征向量;将新数据的语义特征向量输入所述初始化模型进行相似性检测。2.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法,其中,提取所有CDC块的特征向量包括:将CDC块分成固定大小的数据块;使用局部敏感Hash将所有数据块映射为长度为K的Hash数组;初始化一个空集合,遍历Hash数组中的每一个元素,将每一个元素与周围的元素相结合生成一个新的元素,将所述新元素放入所述空集合中,得到新集合;遍历所述空集合中的每一个元素,通过指定的Hash方法集合,把所述新集合中的每一个元素映射为对应的Hash向量;将对应的Hash向量矩阵标准化后取平均值得到一个CDC块的特征向量。3.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法,其中基于Mask算法对任一CDC块的上下...
【专利技术属性】
技术研发人员:田纹龙,李柏松,李宇圣,万亚平,欧阳纯萍,刘永彬,李跃,
申请(专利权)人:南华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。