【技术实现步骤摘要】
数据去重方法、装置、计算机设备及存储介质
本专利技术涉及大数据领域,尤其涉及一种数据去重方法、装置、计算机设备及存储介质。
技术介绍
数据去重又称重复数据删除(DataDeduplication),是一种应用在存储系统中的全局识别和消除冗余数据的技术,近些年来成为存储系统研究的热点。然而,随着存储系统存储的数据量的逐渐上升,传统的数据去重方法的处理效率在逐渐下降,无法满足高效率的数据去重要求。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据去重方法、装置、计算机设备及存储介质,用以解决目前数据去重效率较低的问题。第一方面,本专利技术实施例提供了一种数据去重方法,包括:获取待比对数据;基于所述待比对数据,采用消息摘要算法计算生成相对应的待比对指纹;获取用户输入的查询指令,基于所述待比对指纹,根据所述查询指令查询是否存在与所述待比对指纹相同的现存指纹,得到查询结果,其中,所述查询指令包括标志位,所述现存指纹和所述待比对指纹采用相同的生成方式得到;执行所述标志位所代表的操作,并基于所述查询结果变更所述现存指纹所对应的引用计数,完成数据去重。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述执行所述标志位所代表的操作,并基于所述查询结果变更所述现存指纹所对应的引用计数,完成数据去重,包括:若所述标志位所代表的操作为读,则在根据所述查询指令和所述待比对指纹查询是否存在与所述待比对指纹相同的现存指纹之后,继续执行读操作,当所述查询结果为存在与所述待比对指纹相同的现存指纹时,读取与所述待比对指纹相同的现存指纹所对应的现存数据;若所述标志位所 ...
【技术保护点】
1.一种数据去重方法,其特征在于,所述方法包括:获取待比对数据;基于所述待比对数据,采用消息摘要算法计算生成相对应的待比对指纹;获取用户输入的查询指令,基于所述待比对指纹,根据所述查询指令查询是否存在与所述待比对指纹相同的现存指纹,得到查询结果,其中,所述查询指令包括标志位,所述现存指纹和所述待比对指纹采用相同的生成方式得到;执行所述标志位所代表的操作,并基于所述查询结果变更所述现存指纹所对应的引用计数,完成数据去重。
【技术特征摘要】
1.一种数据去重方法,其特征在于,所述方法包括:获取待比对数据;基于所述待比对数据,采用消息摘要算法计算生成相对应的待比对指纹;获取用户输入的查询指令,基于所述待比对指纹,根据所述查询指令查询是否存在与所述待比对指纹相同的现存指纹,得到查询结果,其中,所述查询指令包括标志位,所述现存指纹和所述待比对指纹采用相同的生成方式得到;执行所述标志位所代表的操作,并基于所述查询结果变更所述现存指纹所对应的引用计数,完成数据去重。2.根据权利要求1所述的方法,其特征在于,所述执行所述标志位所代表的操作,并基于所述查询结果变更所述现存指纹所对应的引用计数,完成数据去重,包括:若所述标志位所代表的操作为读,则在根据所述查询指令和所述待比对指纹查询是否存在与所述待比对指纹相同的现存指纹之后,继续执行读操作,当所述查询结果为存在与所述待比对指纹相同的现存指纹时,读取与所述待比对指纹相同的现存指纹所对应的现存数据;若所述标志位所代表的操作为写,则在根据所述查询指令和所述待比对指纹查询是否存在与所述待比对指纹相同的现存指纹之后,继续执行写操作,当所述查询结果为存在与所述待比对指纹相同的现存指纹时,将所述现存指纹所对应的引用计数作预加一;若所述标志位所代表的操作为删除,则在根据所述查询指令和所述待比对指纹查询是否存在与所述待比对指纹相同的现存指纹之后,继续执行删除操作,当所述查询结果为存在与所述待比对指纹相同的现存指纹时,将所述现存指纹所对应的引用计数作预减一。3.根据权利要求1所述的方法,其特征在于,所述待比对指纹和所述现存指纹采用字符串的形式表示,所述基于所述待比对指纹,根据所述查询指令查询是否存在与所述待比对指纹相同的现存指纹,得到查询结果,包括:将所述待比对指纹和所述现存指纹从左至右进行字符串的比较;当表示所述待比对指纹的字符串和表示所述现存指纹的字符串完全相同时,得到查询结果为存在与所述待比对指纹相同的现存指纹,其中,所述字符串完全相同是指表示所述待比对指纹的字符串的长度和表示所述现存指纹的字符串的长度相等,且从左至右的每一个字符均相同;当表示所述待比对指纹的字符串和表示所述现存指纹的字符串不完全相同时,得到查询结果为不存在与所述待比对指纹相同的现存指纹。4.根据权利要求1所述的方法,其特征在于,所述在获取用户输入的查询指令之前,还包括:采用预设算法将每个所述现存指纹拆分成多个二次索引现存指纹,得到二次索引指纹库;将所述二次索引指纹库中相同的二次索引现存指纹除去,得到每个所述现存指纹对应的目标二次索引现存指纹。5.根据权利要求4所述的方法,其特征在于,所述基于所述待比对指纹,根据所述查询指令查询是否存在与所述待比对指纹相同的现存指纹,得到查询结果,包括:采用所述预设算法将所述待比对指纹拆分成多个二次索引待比对指纹;根据所述查询指令,将所述二次索引待比对指纹与所述目标二次索引现存指纹进行匹配...
【专利技术属性】
技术研发人员:齐泽青,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。