基于云存储的数据存储方法及装置制造方法及图纸

技术编号:28622880 阅读:14 留言:0更新日期:2021-05-28 16:18
本公开公开了一种基于云存储的数据存储方法及装置。其中,该方法包括:获取构成上传文件的一部分的一数据块,其中,所述数据块携带有一应用标记;基于所述应用标记,处理所述数据块;将处理后的所述数据块存储到多个云存储中的相应的一个云存储中。本公开解决了【不能针对不同应用场景的文件和数据块个性化去重存储处理和由于采用基于物理的服务器、磁盘等的数据去重存储技术而造成的构建去重存储服务门槛高、存储空间规划不灵活、使用维护成本高】的技术问题。

【技术实现步骤摘要】
基于云存储的数据存储方法及装置
本公开涉及计算机存储
,具体而言,涉及一种【基于云存储的数据存储方法及装置】。
技术介绍
重复数据删除即数据去重是一种在存储系统中广泛应用的技术。通过分析数据中是否存在重复而只保留一份相同的数据,可以有效的节省用户的存储空间,间接节省了服务商的硬件采购成本、人力能耗和机房的使用空间等等。同时在基于云存储的情况下可以有效减少对网络带宽的占用,进而提高访问和检索效率。现有技术中目前存在两种去重方案:基于文件级的去重存储技术和基于数据块级的去重存储技术。如图1A所示,基于文件级的数据去重存储技术针对存储用户上传的文件,采用文件级整体hash对比,如果发现hash值一致,就更新引用计数。如果发现hash值不一致,就存储该文件,然后更新引用计数。这种方式可以很好解决复制文件的重复存储问题,可以不用存储重复的文件。但在存储和读取过程中,会占用大量的网络带宽。如图1B所示,基于数据块级的去重存储方案,将数据块分块并计算指纹后,判断指纹是否存在,如果存在,则将数据块的哈希(hash)指纹计数加1;如果不存在,则存储数据块。但是,这种数据块级的去重存储方案是基于物理服务器和磁盘存储、分布式存储之上的,通常需要三台以上服务器。数据块的分块算法是采用系统全局配置的固长分块,或系统配置的全局范围的内容变长分块方案。现有技术存在以下问题:1)重复数据检测粒度很粗,文件稍微有1个字节变化,就失去了重复检测效果;2)全局配置的分块去重算法和压缩算法,不能根据数据格式和数据内容,细化到数据块;3)不能针对后端存储的特征,针对不同的数据特征,设置不同的可靠性保存策略和存储策略;4)不能很好的结合云存储多副本、按需、任意接入点等特征,实现更加弹性、灵活、可靠的重复数据去重压缩存储方案;5)针对海量复制数据存储场景,比如备份数据等,会消耗大量的存储空间;6)存储和读取过程,占用大量的网络带宽。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本公开实施例提供了一种【基于云存储的数据存储方法及装置】,以至少解决【不能针对不同应用场景的文件和数据块个性化去重存储处理和由于采用基于物理的服务器、磁盘等的数据去重存储技术而造成的构建去重存储服务门槛高、存储空间规划不灵活、使用维护成本高】的技术问题。根据本公开实施例的一个方面,提供了一种基于云存储的数据存储方法,包括:获取构成上传文件的一部分的一数据块,其中,所述数据块携带有一应用标记;基于所述应用标记,处理所述数据块;将处理后的所述数据块存储到多个云存储中的相应的一个云存储中。在本公开实施例中,通过基于云存储服务API接口之上构建消重压缩存储服务层的方式,解决了相关技术中【不能针对不同应用场景的文件和数据块个性化去重存储处理和由于采用基于物理的服务器、磁盘等的数据去重存储技术而造成的构建去重存储服务门槛高、存储空间规划不灵活、使用维护成本高】的技术问题,具有存储成本低、资源消耗小的技术效果。附图说明此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:图1A是根据现有技术的一种基于文件级的去重存储方法的流程图;图1B是根据现有技术的一种基于数据块级的去重存储方法的流程图;图2是根据本公开实施例的云平台的架构图;图3是根据本公开实施例的去重存储方法的流程示意图;图4是根据本公开实施例的聚合重删云存储方法的流程示意图;图5是根据本公开实施例的从聚合重删云存储中读取文件的方法的流程示意图;图6是根据本公开实施例的去重存储方法的另一流程示意图;图7是根据本公开实施例的去重存储方法的又一流程示意图图8是根据本公开实施例的基于云存储的数据存储方法的流程图。具体实施方式为了使本
的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本公开首先对所涉及到的一些术语进行定义:数据块:数据块由任意多个字节构成,一个文件通常由任意多个数据块构成。子数据块:将数据块进行分块后得到的小的数据块。去重:是将重复的数据找出来,去掉重复的,保留一份并存储下来。云存储:是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。具体地,通过在数据中心建立一个或多个集中存储池,通过互联网协议接口提供存储服务,并提供数据上传、下载、存储目录管理等编程接口。云KVDB:键值数据库,相对于普通关系型数据库,擅长存储键(key)值(value)对,并提供高性能查询和读写能力。通常查询和写入的时候,以key字符串作为请求参数,Value可以是任何对象,比如字符串,整数等。如上所述,现有技术中存在存储成本高、网络带宽资源消耗大的问题,为了解决该问题,本公开通过在云存储服务API接口之上构建一层分布式消重压缩存储服务层,来完成分布式重复数据检测和去重,从而大大降低了数据存储的成本、网络带宽资源消耗。同时,通过多个云存储的聚合,提供了更好的可靠性和弹性存储服务能力。实施例1根据本公开实施例,提供了一种云平台。图2是根据本公开实施例的云平台的架构图,如图2所示,该云平台200包括分布式消重压缩存储服务层22和云存储层L30和元数据存储层L31。消重压缩存储服务层22包括应用接口222、分布式底层接口L1、分布式数据块去重写入层L21、分布式数据块读取层L22、分布式数据块缓存层L40和元数据缓存层L50。在本实施例中,如图2所示,应用接口222包括HTTPAPI2222、客户端2224、或者是操作系统读写接口(Posxi文件系统接口)2226。在其他的实施例中,可以根据需要部署多个应用接口。为了方便访问,系统提供三种方式供使用。HTTPAPI方式适合程序中集成云存储服务,Posxi文件系统本文档来自技高网
...

【技术保护点】
1.一种基于云存储的数据存储方法,其特征在于,包括:/n获取构成上传文件的一部分的一数据块,其中,所述数据块携带有一应用标记;/n基于所述应用标记,处理所述数据块;/n将处理后的所述数据块存储到多个云存储中的相应的一个云存储中。/n

【技术特征摘要】
1.一种基于云存储的数据存储方法,其特征在于,包括:
获取构成上传文件的一部分的一数据块,其中,所述数据块携带有一应用标记;
基于所述应用标记,处理所述数据块;
将处理后的所述数据块存储到多个云存储中的相应的一个云存储中。


2.根据权利要求1所述的方法,其特征在于,所述应用标记包括以下至少之一:
去重位,用于指示是否进行去重处理;
分块方式位,用于指示是固长分块还是变长分块;
压缩位,用于指示是否进行压缩处理;
加密位,用于指示是否进行加密处理;
多副本位,用于指示是否进行多副本存储;
归档位,用于指示是否存储为归档;和
跨云位,用于指示是否进行跨云存储。


3.根据权利要求2所述的方法,其特征在于,基于所述应用标记,处理所述数据块包括以下至少之一:在所述去重位指示进行去重处理的情况下,对所述数据块进行去重处理;
在所述压缩位指示进行压缩处理的情况下,对所述数据块进行压缩处理;
在所述加密位指示进行加密处理的情况下,对所述数据块进行加密处理;
在所述跨云位指示跨云存储的情况下,选取不同云存储品牌配置,以对所述数据块进行跨云存储;
在所述归档位指示归档存储的情况下,选取归档配置,以对所述数据块进行归档存储。


4.根据权利要求2所述的方法,其特征在于,将处理后的所述数据块存储到多个云存储中的相应的一个云存储中之后,所述方法还包括:在所述多副本位指示进行多副本存储的情况下,将所述数据块写入到所述多个云存储中的其他的一云存储中。


5.根据权利要求2所述的方法,其特征在于,在基于所述应用标记处理所述数据块之前,所述方法还包括:基于所述应用标记对所述...

【专利技术属性】
技术研发人员:陈元强
申请(专利权)人:深圳市木浪云数据有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1