【技术实现步骤摘要】
本专利技术涉及计算机领域,特别涉及一种删除重复数据的方法、装置和系统。
技术介绍
在现有技术中,提高海量信息存储率的重要方法是删除系统中存在的重复数据。系统中存在的重复数据是指存储在系统中的完全相同的两份或两份以上数据。在删除系统中存在的重复数据前,首先获取上传数据的数据信息,根据数据信息判断系统中是否已经存在上传数据,当已经存在上传数据时,删除上传数据。 上传数据的数据信息是对上传数据进行哈希计算所得的值。哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。在获得上传数据的数据信息后,将数据信息与系统中保存的数据信息进行对比,若数据信息一致,则表示系统中存在与上传数据相同的数据,需要删除上传数据。若数据信息不一致,则表示系统中不存在与上传数据相同的数据,直接把上传数据存储在系统中。所述系统中保存的数据信息是指对存储在数据系统中的数据进行哈希计算所得的值。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题I、由于需要删除重复数据,因此系统中不能存储两份以上的相同数据,对于重要的数据不能进行备份操作,降低了数据可靠性;2、当出现异常情况,如停电等,系统中产生垃圾数据,降低存储率;所述垃圾数据是系统进行删除重复数据的过程中,系统已检测出上传数据为重复数据,需要进行删除,但由于停电等意外情况的发生,导致未更新上传数据元数据和删除上传数据,使系统中存在一份不需要的数据;3、用户上传数据时,若在线进行删除重复数据的操作,影响用户体验。若上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销。
技术实现思路
本专利技术 ...
【技术保护点】
一种删除重复数据的方法,其特征在于,包括:获取用户的输入数据,以及用户输入的副本数;对所述输入数据进行哈希计算,得到哈希值;建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据;当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
【技术特征摘要】
1.一种删除重复数据的方法,其特征在于,包括 获取用户的输入数据,以及用户输入的副本数; 对所述输入数据进行哈希计算,得到哈希值; 建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据; 当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。2.根据权利要求I所述的方法,其特征在于,还包括 当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址;根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名; 将所述用户输入的数据的文件名加入所述删除列表。3.根据权利要求I所述的方法,其特征在于,系统按照预设的周期遍历系统中已存在的元数据,包括 获取系统中已存在的元数据;所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名; 对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值; 构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数; 判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息; 若存在,获取所述第三数据信息对应的第三状态信息项;所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址; 根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名; 判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名;若否,将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址; 删除所述系统中已存在的元数据对应数据的存储地址中的数据。4.根据权利要求I所述的方法,其特征在于,在删除所述输入数据前,还包括 将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。5.根据权利要求4所述的方法,其特征在于,所述将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,包括 在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。6.一种删除数据重复数据的装置,其特征在于,包括 输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数; 第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值; 数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;...
【专利技术属性】
技术研发人员:郑锡涛,张辉,战宏亮,韩明,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。