一种大数据的冗余检测方法技术

技术编号:17007527 阅读:49 留言:0更新日期:2018-01-11 03:52
本发明专利技术实施例提供了一种大数据的冗余检测方法,所述方法包括:获取目标数据,并计算所述目标数据的目标哈希值;判断所述目标哈希值是否包含在预先记录的哈希值集合中;如果包含,不存储所述目标数据;如果不包含,将所述目标数据按照预设的划分规则划分成数据块;计算每一划分得到的数据块的第一哈希值;针对每一第一哈希值,判断该第一哈希值是否包含在所述数据块的哈希值集合中;如果包含,则不存储第一哈希值对应的数据块;如果不包含,则存储该第一哈希值对应的数据块。应用本发明专利技术实施例,可以实现够快速查找到冗余数据,对于可能出现的相似数据,有效的降低数据匹配的粒度,可以尽可能的找到相似数据中的冗余数据块。

【技术实现步骤摘要】
一种大数据的冗余检测方法
本专利技术涉及计算机
,特别是涉及一种大数据的冗余检测方法。
技术介绍
随着计算机和互联网技术的快速发展,我们处在了一个信息爆炸的时代,为了处理大量的信息,出现了大数据的概念。所谓大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。由于数据的海量特性,人们仅仅凭一己之力很难对这些数据这些分析,但是在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据逐步为人类创造更多的价值。但是,尽管用于做大数据分析的计算机越来越多,性能越来越好,但是面对海量数据仍然力不从心,因此大数据分析的第一步,是检测和消除其中的相同数据,即冗余数据,通过冗余数据检测,大数据系统可以仅保存冗余数据的一份存档。一方面是减少存储空间和网络带宽的占用,另一方面是减少数据分析量。现有技术中的常见冗余检测方法是通过比较存储文件的中的数据来检测冗余数据。但是单纯以文件为单位来检测冗余,其粒度太大,不能本文档来自技高网...
一种大数据的冗余检测方法

【技术保护点】
一种大数据的冗余检测方法,其特征在于,所述方法包括:获取目标数据,并计算所述目标数据的目标哈希值;判断所述目标哈希值是否包含在预先记录的哈希值集合中;如果包含,不存储所述目标数据;如果不包含,将所述目标数据按照预设的划分规则划分成数据块;计算每一划分得到的数据块的第一哈希值;针对每一第一哈希值,判断该第一哈希值是否包含在所述数据块的哈希值集合中;如果包含,则不存储第一哈希值对应的数据块;如果不包含,则存储该第一哈希值对应的数据块。

【技术特征摘要】
1.一种大数据的冗余检测方法,其特征在于,所述方法包括:获取目标数据,并计算所述目标数据的目标哈希值;判断所述目标哈希值是否包含在预先记录的哈希值集合中;如果包含,不存储所述目标数据;如果不包含,将所述目标数据按照预设的划分规则划分成数据块;计算每一划分得到的数据块的第一哈希值;针对每一第一哈希值,判断该第一哈希值是否包含在所述数据块的哈希值集合中;如果包含,则不存储第一哈希值对应的数据块;如果不包含,则存储该第一哈希值对应的数据块。2.根据权利要求1所述的方法,其特征在于,所述目标哈希值为MD5值或sha1值。3.根据权利要求1所述的方法,其特征在于,在所述存储该第一哈希值对应的数据块之后,所述方法还包括:将该数据块的第一哈希值及所述目标哈希值存储至...

【专利技术属性】
技术研发人员:徐秋养
申请(专利权)人:佛山市深研信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1