一种删除重复数据的方法、装置和系统制造方法及图纸

技术编号:8271487 阅读:192 留言:0更新日期:2013-01-31 03:43
本发明专利技术的实施例公开一种删除重复数据的方法、装置和系统,涉及计算机领域,解决现有技术中数据可靠性低,垃圾数据多,系统开销大的问题。一种删除重复数据的方法,包括:通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息和对应的删除列表,将用户输入数据的文件名加入所述删除列表。然后将输入数据对应的元数据记录的输入数据的存储地址变更为已存储数据对应的元数据记录的已存储数据的存储地址,最后删除所述输入数据。本发明专利技术主要应用于计算机系统中。

【技术实现步骤摘要】
本专利技术涉及计算机领域,特别涉及一种删除重复数据的方法、装置和系统
技术介绍
在现有技术中,提高海量信息存储率的重要方法是删除系统中存在的重复数据。系统中存在的重复数据是指存储在系统中的完全相同的两份或两份以上数据。在删除系统中存在的重复数据前,首先获取上传数据的数据信息,根据数据信息判断系统中是否已经存在上传数据,当已经存在上传数据时,删除上传数据。 上传数据的数据信息是对上传数据进行哈希计算所得的值。哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。在获得上传数据的数据信息后,将数据信息与系统中保存的数据信息进行对比,若数据信息一致,则表示系统中存在与上传数据相同的数据,需要删除上传数据。若数据信息不一致,则表示系统中不存在与上传数据相同的数据,直接把上传数据存储在系统中。所述系统中保存的数据信息是指对存储在数据系统中的数据进行哈希计算所得的值。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题I、由于需要删除重复数据,因此系统中不能存储两份以上的相同数据,对于重要的数据不能进行备份操作,降低了数据可靠性;2、当出现异常情况,如停电等,系统中产生垃圾数据,降低存储率;所述垃圾数据是系统进行删除重复数据的过程中,系统已检测出上传数据为重复数据,需要进行删除,但由于停电等意外情况的发生,导致未更新上传数据元数据和删除上传数据,使系统中存在一份不需要的数据;3、用户上传数据时,若在线进行删除重复数据的操作,影响用户体验。若上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销。
技术实现思路
本专利技术的实施例提供一种删除重复数据的方法、装置和系统,解决系统中对于重要的数据不能进行备份操作,垃圾数据不能删除的技术问题。为达到上述目的,本专利技术的实施例采用如下技术方案第一方面,提供一种删除重复数据的方法,包括获取用户的输入数据,以及用户输入的副本数。对所述输入数据进行哈希计算,得到哈希值。建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。在第一方面的第一种可能的实现方式中,判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。第二方面,提供一种删除重复数据的装置,包括输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数。第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值。数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。在第二方面的第一种可能的实现方式中,第一判断单元,用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。输入数据删除单元,用于当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。 第三方面,提供一种计算机系统,包括总线,与所述总线相连的处理器以及与所述总线相连的存储器;其中所述处理器包括上述提及的装置。本专利技术实施例提供一种删除重复数据的方法、装置和系统,首先获取用户的输入数据,以及用户输入的副本数。对所述输入数据进行哈希计算,得到哈希值。建立所述输入数据对应的数据信息,判断是否存在与所述数据信息相同的已存储数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述删除重复数据的方法,记录备份数,删除垃圾数据,对系统中重要的数据进行备份,提高系统存储空间存储率,优化用户体验,加快运行效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本专利技术实施例I中删除重复数据的流程框图;图2为本专利技术实施例2中删除重复数据的流程框图;图3为本专利技术实施例2中已存储数据对应删除列表的框图;图4为本专利技术实施例2中另一种删除重复数据的流程框图;图5为本专利技术实施例2中第三种删除重复数据的流程框图;图6为本专利技术实施例3中一种删除重复数据装置的框图;图7为本专利技术实施例3中另一种删除重复数据装置的框图;图8为本专利技术实施例3中第三种删除重复数据装置的框图;图9为本专利技术实施例3中元数据更新单元的框图;图10为本专利技术实施例3中计算机系统的框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例I :本专利技术的一个实施例提供了一种删除重复数据的方法,如图I所示,该方法包括如下步骤101、获取用户的输入数据,以及用户输入的副本数。用户将输入数据以及与该输入数据的副本数一同输入计算机中。102、对所述输入数据进行哈希计算,得到哈希值。本专利技术实施例中提及的哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。103、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。 104、判断是否存在与所述数据信息相同的已存储数据信息。所述已存储数据信息对应唯一的已存储数据。在计算机中,已经存储了大量的数据,每一份已存储数据对相应的建立了唯一的已存储数据信息,每份已存储数据信息中包括对应的已存储数据的哈希值和副本数。105、当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。当存在与所述数据信息相同的已存储数据信息时,表示在步骤101中获取的用户的输入数据已经存在,不需要再进行存储,此时对该输入数据进行删除。本专利技术的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述方法,克服对重要数据不能备份的问题,提高数据的可靠性。实施例2 本专利技术的一个实施例提供一种删除重复数据的方法,如图2所示,包括201、获取用户的输入数据,以及用户输入的副本数。202、对所述输入数据进行哈希计算,得到哈希值。所述哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。203、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。204、判断是否存在与所述数据信息相同的已存储数据信息。所述已存储数据信息对应唯一的已存储数据。在计算机中,已经存储了大量的数据,每一份已存储数据相应的建立了唯一的已存储数据信息,每份已存储数据信息中包括对应的已存储数据的哈希值和副本数。步骤204判断是否存在与所述数据信息相同的已存储数据信息,即判断是否存在与用户的输入数据的数据信息所包括的哈希值和副本数分别相同的已存储数据信息。如果两个数据信息中的哈希值和副本数分别相同,可以判定这两个数据信息所对应的两个数据是相同的数据。205、当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的本文档来自技高网...

【技术保护点】
一种删除重复数据的方法,其特征在于,包括:获取用户的输入数据,以及用户输入的副本数;对所述输入数据进行哈希计算,得到哈希值;建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据;当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。

【技术特征摘要】
1.一种删除重复数据的方法,其特征在于,包括 获取用户的输入数据,以及用户输入的副本数; 对所述输入数据进行哈希计算,得到哈希值; 建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据; 当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。2.根据权利要求I所述的方法,其特征在于,还包括 当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址;根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名; 将所述用户输入的数据的文件名加入所述删除列表。3.根据权利要求I所述的方法,其特征在于,系统按照预设的周期遍历系统中已存在的元数据,包括 获取系统中已存在的元数据;所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名; 对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值; 构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数; 判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息; 若存在,获取所述第三数据信息对应的第三状态信息项;所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址; 根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名; 判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名;若否,将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址; 删除所述系统中已存在的元数据对应数据的存储地址中的数据。4.根据权利要求I所述的方法,其特征在于,在删除所述输入数据前,还包括 将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。5.根据权利要求4所述的方法,其特征在于,所述将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,包括 在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。6.一种删除数据重复数据的装置,其特征在于,包括 输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数; 第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值; 数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;...

【专利技术属性】
技术研发人员:郑锡涛张辉战宏亮韩明
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1