一种云备份过程中数据去重的方法和系统技术方案

技术编号:12807093 阅读:59 留言:0更新日期:2016-02-03 21:13
本发明专利技术适用于数据处理领域,提供了一种云备份过程中数据去重的方法,所述方法包括:云备份客户端对待备份数据进行分类处理;云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块;云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端;云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,并根据检索结果进行后续处理。实施本发明专利技术实施例可以提高数据去重的效率。

【技术实现步骤摘要】

本专利技术属于数据处理领域,尤其涉及一种云备份过程中数据去重的方法和系统
技术介绍
随着大数据时代的快速到来,信息世界的数据量呈现爆发式的增长,数据的呈现PB、EB,甚至ZB级别的增长。研究指出,到2020年全球数据量将达到40ZB。伴随着数据的增长,数据管理中心所面临的问题也越来越多,存储介质的消耗、维护工作越来越困难,普通的一些小公司和个人已经无法单独进行数据管理工作。他们更多的将目光投向当前市场上备受关注的云存储技术,这种技术可以大大降低公司和个人的数据管理成本,同时云存储技术也为这些公司和个人提供了一些更加便捷的获取数据的方式。在这种需求的驱动下,云环境下的文件去重问题的研究变的十分重要。目前大多数备份系统采用的去重方式是整文件去重,没有细分到进行文件块级去重,因此系统整体去重率偏低,大多数备份软件都是对所有文件采用同一种去重方法,而不同类型的文件其内部数据重复率不一样,因此单一的去重算法使得系统去重效率偏低。
技术实现思路
本专利技术实施例的目的在于提供一种云备份过程中数据去重的方法和系统,以解决现有技术去重效率低下的问题。本专利技术实施例是这样实现的,一种云备份过程中数据去重的方法,所述方法包括:云备份客户端对待备份数据进行分类处理;云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块;云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立;云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。本专利技术实施例还提供了一种云备份过程中数据去重的系统,所述系统包括:云备份客户端,用于对待备份数据进行分类处理,对所述经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立。云备份服务器端,用于接收所述云备份客户端发送的指纹信息,根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。本专利技术实施例,云备份客户端对待备份数据进行分类处理,对经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储经过切块的待备份数据的指纹信息,并将指纹信息发送到云备份服务器端,云备份服务器端根据指纹信息对云备份服务器端本地的数据库进行全局检索,根据检索结果进行后续处理,使得云备份过程中去重效率得到提升。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的云备份过程中数据去重方法的流程图;图2为本专利技术实施例提供的切块过程的示意图;图3为本专利技术实施例提供的存储指纹信息的示意图;图4为本专利技术实施例提供的过滤数据块的示意图;图5为本专利技术实施例提供的云备份过程中数据去重系统的结构图。【具体实施方式】为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一如图1所示为本专利技术实施例提供的云备份过程中数据去重方法的流程图,所述方法包括以下步骤:步骤S101,云备份客户端对待备份数据进行分类处理。在本专利技术实施例中,云备份客户端首先对待备份的数据进行分类处理,将待备份的数据分类为以下类别中的一种或多种:l、FSCF(Fixed_Size Chunk File,简称:定长块文件),FSCF是指文件内容一次成型,变动小,内部有冗余的文件,该类文件包括:系统镜像文件、虚拟机文件等;2、DSCF(Dynamic_Size Chunk File,简称:动长块文件),DSCF是指文件内容频繁变更,内部有冗余的文件,该类文件包括:word文件、报表文件等;3、NNCF(No Need Cut File,简称:无需切分文件),NNCF是指内部冗余极少,去重成本高于完整存储文件成本的文件,该类文件包括:视频文件、音频文件等;4、SCF (Structural Chunk File,简称:结构块文件),SCF是指具有固定结构类型的文件,该类文件包括文件、邮件文件等。步骤S102,云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块。在本专利技术实施例中,云备份客户端在将待备份数据分类了之后,使用预设的切块算法对待备份数据进行备份,其中,切块算法包括多种不同的切块算法。所述云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块的步骤,包括:1、使用定长切分算法FSP对FSCF进行切块;和/或,2、使用基于内容的切块算法⑶C对DSCF和SCF进行切块;和/或,3、使用基于文件的切块算法WFD对NNCF进行切块。其中,FSP(Fixed_Size Partit1n,简称:定长切分算法)切分出的数据块的大小是固定的,块的大小一般是4kb?10mb ;Q)C(Content-Defined Chunking,简称:基于内容的切块算法)切分出的数据块的大小是非固定的,其对DSCF和SCF的切块效率很高;WFD (Whole File Detect1n,简称:基于文件的切块算法)无法检测出文件内部的冗余,其只是文件间的切块。通过该步骤,云备份客户端可以建立切块以后的数据与指纹一一对应的集合。如图2所示为本专利技术实施例提供的切块过程的示意图。步骤S103,云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立。在本专利技术实施例中,待备份数据在备份过程中会产生数量巨大的文件快,这些文件块的索引效率是影响去重性能的重要因素,为了提高文件快的去重效率,采用多个子数据库和一个主数据库的方式来存储文件快的指纹信息,所述子数据库根据待备当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种云备份过程中数据去重的方法,其特征在于,所述方法包括:云备份客户端对待备份数据进行分类处理;云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块;云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立;云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋晓宁赵文文甘志刚
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1