海量小文件分级存储方法及系统技术方案

技术编号:10579308 阅读:269 留言:0更新日期:2014-10-29 11:56
本发明专利技术提供了一种海量小文件分级存储方法,包括如下创建一级存储池和二级存储池;合并海量小文件形成一个大文件;存储所述大文件至一级存储池,当所述大文件在设定时间内未进行读写操作,则迁移该大文件至二级存储池。当客户端请求访问某小文件时,首先判断该小文件所在的大文件存放的存储池;若所述大文件存放于一级存储池,则通过索引文件截取出该小文件并发送给客户端;若所述大文件存放于二级存储池,则首先通过索引文件解码出该小文件发送给客户端并把所述大文件迁移至一级存储池。本发明专利技术还提供相应的系统。本发明专利技术提高了分布式文件系统处理海量小文件的效率,减少了存储空间;本发明专利技术通过分级存储进一步降低了存储成本。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种海量小文件分级存储方法,包括如下创建一级存储池和二级存储池;合并海量小文件形成一个大文件;存储所述大文件至一级存储池,当所述大文件在设定时间内未进行读写操作,则迁移该大文件至二级存储池。当客户端请求访问某小文件时,首先判断该小文件所在的大文件存放的存储池;若所述大文件存放于一级存储池,则通过索引文件截取出该小文件并发送给客户端;若所述大文件存放于二级存储池,则首先通过索引文件解码出该小文件发送给客户端并把所述大文件迁移至一级存储池。本专利技术还提供相应的系统。本专利技术提高了分布式文件系统处理海量小文件的效率,减少了存储空间;本专利技术通过分级存储进一步降低了存储成本。【专利说明】海量小文件分级存储方法及系统
本专利技术涉及文件存储,具体地,涉及一种海量小文件分级存储方法及系统。
技术介绍
在大数据时代,人们每天面临的工作和生活无不和数据信息相关,信息呈现爆炸 式增长趋势,存储需求急剧膨胀,根据研究显示,2020年数字宇宙将达到35. 2ZB。传统的存 储不足以支撑海量数据存储。云存储通过横向扩展技术,可支撑EB级的存储,提供高可靠 性、高扩展性以及高可用性的存储空间。 假设一种场景:某个时刻有100万个用户在通过及时通信工具发信息,每条信息 容量为1KB,在此应用场景下传统的分布式文件系统将会面临严峻的问题。首先,处理如此 庞大数量的文件,如果按照普通的存储方式,那么需要反复运行1〇〇万次存储命令才能完 成任务,即便用程序来完成存储的工作,也会是费时费力的庞大工程;其次,分布式文件系 统每存入一个文件都需要建立相应的元数据,那么100万个文件对应的100万个元数据将 造成十分巨大的空间占用,相比于每个文件仅仅1KB的体积,用传统的分布式文件系统所 带来的元数据空间开销使得存储效率降低。而即便刨除元数据空间的占用,由于文件系统 的特性,对于文件簇为4KB的文件系统,1KB的文件也会占用4KB的空间,那么100万个小 文件将占用额外的3GB空间。在这种情况下,提前对巨量的小文件进行处理就变得十分必 要。同时分布式文件系统多采用多副本策略通常副本数为3即有效存储容量与裸容量比为 1:3。当考虑信息的可靠性、时效性(近期需要访问)以及读写响应时间时,该策略非常有必 要能充分发挥分布式文件系统的优势。但随着时间的推移当该信息成为历史信息时(信息 极少被访问)还采用多副本策略就会对存储资源造成极大的浪费,造成高昂的保存成本。 因此有必要采用分级存储策略。 经过对现有技术的检索,发现申请号为201410014559. X,专利技术名称为一种分布式 文件系统中海量小文件10操作传输提速方法的专利技术,其在发送端将大量小文件10操作缓 存,执行流量汇集,打包成单一大文件一次性传输到接收端,在接收端对所述大文件进行解 析,获得每一个小文件10操作,并执行相关文件写入操作。所述方法大大降低了网络交互 次数,提高了海量小文件10操作的传输速度。但是该专利只对海量小文件进行预处理,未 分层存储。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种海量小文件分级存储方法。 根据本专利技术的一个方面提供的海量小文件分级存储方法,包括如下步骤: 步骤1 :创建一级存储池和二级存储池,其中一级存储池的访问速度大于二级存 储池的访问速度; 步骤2 :合并多个小文件形成一个大文件; 步骤3 :存储所述大文件至一级存储池,当所述大文件在设定时间内未进行读写 操作,则迁移该大文件至二级存储池。 优选地,一级存储池有效容量与裸容量比小于二级存储池有效容量与裸容量比。 优选地,所述步骤2包括如下步骤: 步骤2. 1 :将多个小文件进行合并形成一个大文件,在合并的过程中,读取每个小 文件的长度,记录该小文件体积以及合并后大文件的起始位置; 步骤2. 2 :根据被合并的小文件和合成的大文件形成索引文件并删除小文件。 优选地,所述步骤3包括如下步骤: 步骤3. 1 :根据周、月、年不同的粒度来设置多级存储策略并感知在该粒度下该大 文件是否进行读写操作; 步骤3. 2 :当感知到该大文件在该粒度下设定时间内从未被读写访问,则将所述 大文件从一级存储池迁移到二级存储池以减少存储空间。 优选地,所述步骤3之后还包括如下步骤: 步骤4:当客户端请求访问其中一个小文件时,根据索引文件和与多级存储策略 相对应的多级存储调度策略首先判断该小文件所在的大文件存放的存储池;若所述大文件 存放于一级存储池,则通过索引文件截取出该小文件并发送给客户端;若所述大文件存放 于二级存储池,则首先通过索引文件解码出该小文件发送给客户端并把所述大文件迁移至 一级存储池。 根据本专利技术的另一个方面提供的海量小文件分级存储系统,包括如下装置: 存储池创建装置,用于创建一级存储池和二级存储池; 大文件生成装置,用于合并多个小文件形成一个大文件; 大文件迁移装置,用于存储所述大文件至一级存储池后,当所述大文件在设定时 间内未进行读写操作,迁移该大文件至二级存储池。 优选地,一级存储池有效容量与裸容量比小于二级存储池有效容量与裸容量比。 优选地,所述大文件生成装置包括如下装置: 小文件合并装置,用于将多个小文件进行合并形成一个大文件,在合并的过程中, 读取每个小文件的长度,记录其体积以及合并后大文件的起始位置; 索引文件生成装置,用于根据被合并的小文件和合成的大文件形成索引文件并删 除小文件。 优选地,所述大文件迁移装置包括如下装置: 读写操作感知装置,用于根据周、月、年不同的粒度来设置多级存储策略并感知在 该粒度下该大文件是否进行读写操作; 迁移装置,用于当感知到该大文件在该粒度下设定时间内从未被读写访问,将所 述大文件从一级存储池迁移到二级存储池。 优选地,还包括小文件访问装置,用于根据索引文件和与多级存储策略相对应的 多级存储调度策略首先判断该小文件所在的大文件存放的存储池;若所述大文件存放于一 级存储池,则通过索引文件截取出该小文件并发送给客户端;若所述大文件存放于二级存 储池,则首先通过索引文件解码出该小文件发送给客户端并把所述大文件迁移至一级存储 池。 与现有技术相比,本专利技术具有如下的有益效果: 本专利技术将多个小文件合并成一个大文件提高了分布式文件系统处理海量小文件 的效率,减少了存储空间;本专利技术通过分级存储进一步降低了存储成本。 【专利附图】【附图说明】 通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、 目的和优点将会变得更明显: 图1为本专利技术的流程图; 图2为本专利技术中小文件合并的流程图; 图3为本专利技术中读取小文件的流程图。 【具体实施方式】 下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术 人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术 人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术 的保护范围。 在本实施例中,如图1、图2、图3所示,本专利技术提供的海量小文件分级存储方法本文档来自技高网
...

【技术保护点】
一种海量小文件分级存储方法,其特征在于,包括如下步骤:步骤1:创建一级存储池和二级存储池,其中一级存储池的访问速度大于二级存储池的访问速度;步骤2:合并多个小文件形成一个大文件;步骤3:存储所述大文件至一级存储池,当所述大文件在设定时间内未进行读写操作,则迁移该大文件至二级存储池。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛祺谢朝阳童晓渝李学慧丁星武静
申请(专利权)人:中电科华云信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1