一种文件数据分层存储方法和装置制造方法及图纸

技术编号:38025541 阅读:9 留言:0更新日期:2023-06-30 10:52
本发明专利技术公开了一种文件数据分层存储方法和装置,包括递归遍历所有文件的大小、类型属性,并根据文件属性的类型将文件优先迁移至文件系统目标层。本文件数据分层存储方法采用文件访问热度、上一次的迁移分值和调节系数综合计算每个文件的迁移分值,其中调节系统根据文件的大小、类型属性进行调节,这种迁移分值的计算方式,适应面更广,文件迁移更为合理,更加准确,同时也更好的提升文件系统分层存储系统的访问性能;本文件数据分层存储方法进行跨文件系统层进行迁移时,文件仍保持统一的业务IO访问路径,无需要创建链接索引节点重定向至迁移后的文件路径,进而减少了资源的占用,同时减少文件读写时的IO放大,降低系统的复杂度。降低系统的复杂度。降低系统的复杂度。

【技术实现步骤摘要】
一种文件数据分层存储方法和装置


[0001]本专利技术属于文件系统的数据存储领域,具体涉及一种文件数据分层存储方法和装置。

技术介绍

[0002]在数据存储领域,分层存储是一种常见的数据存储方法,它根据业务访问的冷热程度将数据存储至具有不同特性的存储介质上,来提升存储系统的性能,同时兼顾成本。通过将不同的存储介质用来存储不同热度的业务数据来提升存储系统的整体性价比。
[0003]分层存储主要用在块存储系统和文件存储系统两个方面。在文件存储系统方面,业界主要通过管理系统进行数据自动分层,通过内置的策略识别数据的冷热程度来将数据迁移至不同的存储介质中,将冷数据放置到低成本的低速介质、热数据放置到高成本的高速介质来提升整个存储系统的性价比。这种方式虽然便捷,可以降低数据归类分层的成本并提升存储效率,但是当前文件存储系统的分层存储方法需要提前对数据的访问热度进行统计和精细化分析,不仅逻辑复杂,而且还容易出错,容易因为迁移策略的不合理导致对数据过度迁移,占用控制器过多的资源,影响业务IO。例如,大文件的部分数据块被访问便将整个文件迁移到更高性能的存储介质中,浪费控制器资源,同时迁移过程容易造成业务IO波动。
[0004]专利CN111741107A公开了基于文件存储系统的分层方法及装置、电子设备,仅通过查询文件属性获取文件访问时间来判断文件访问热度,并以此为热度依据进行数据分层迁移。所有文件迁移策略一视同仁,并未考虑各文件不同的访问情况以及文件大小等属性(例如,数据库场景下小文件居多,期望将小文件优先迁移至热数据层;图像、视频等非结构数据场景下则以大文件为主,迁移也以大文件对象为主),无法充分发挥各类文件数据分层迁移的效能。另外,现有技术方案中的文件跨层次迁移后,需要创建软链接指向原文件系统路径,业务IO继续访问迁移前的文件系统路径,以保持迁移后文件的访问路径不变,从而不影响对外业务。而额外创建软链接会导致过多占用文件系统的索引节点inode,特别在大量小文件迁移场景下,文件系统将会额外占用大量的inode,增加了文件访问的复杂度,无法充分发挥文件系统的空间使用效能,同时也带来额外的读写放大。

技术实现思路

[0005]本专利技术的目的在于针对解决
技术介绍
中提出的问题,提出一种文件数据分层存储方法和装置。
[0006]为实现上述目的,本专利技术所采取的技术方案为:
[0007]本专利技术提出的一种文件数据分层存储方法,包括递归遍历所有文件的大小、类型属性,并根据文件属性的类型将文件优先迁移至文件系统目标层。
[0008]对最近一段时间内文件的读写请求信息进行统计,并根据读写请求信息计算每个文件的访问热度。
[0009]根据访问热度、上一次的迁移分值和调节系数,综合计算每个文件的迁移分值。
[0010]根据迁移分值将文件进行排序。
[0011]根据排序的迁移分值将各文件迁移至对应的文件系统目标层。
[0012]优选地,文件系统目标层包括热数据层、数据层和冷数据层。
[0013]优选地,读写请求信息包括每个文件读写次数和读写数据长度范围。
[0014]计算访问热度时,将每个文件的读写次数和读写数据长度范围进行加权计算。
[0015]优选地,计算读写数据长度范围时,统计每个文件的读写操作的数据偏移地址和长度,并去除重叠的数据。
[0016]优选地,调节系统α根据用户设置的待迁移文件属性调节:
[0017]当设置待迁移的文件属性类型为迁移至热数据层时,α>0;
[0018]当设置待迁移的文件属性类型为迁移至冷数据层时,α<0。
[0019]优选地,根据排序的迁移分值将各文件迁移至对应的文件系统目标层,包括:
[0020]当待迁移文件的迁移分值大于热数据层的迁移阈值时,将文件迁移至热数据层;
[0021]当待迁移文件的迁移分值小于数据层的迁移阈值时,将文件迁移至冷数据层;
[0022]当待迁移文件的迁移分值位于热数据层的迁移阈值和数据层的迁移阈值之间时,将文件迁移至数据层。
[0023]优选地,文件数据分层存储装置包括访问模块、统计模块、迁移分值计算模块、排序模块和迁移模块,其中:
[0024]访问模块用于访问文件系统。
[0025]统计模块对最近一段时间内文件的读写请求信息进行统计,并根据读写请求信息计算每个文件的访问热度。
[0026]迁移分值计算模块根据访问热度、上一次的迁移分值和调节系数,综合计算每个文件的迁移分值。
[0027]排序模块根据迁移分值将文件进行排序。
[0028]迁移模块根据排序的迁移分值将各文件迁移至热数据层、数据层和冷数据层的文件系统。
[0029]与现有技术相比,本专利技术的有益效果为:
[0030]1、本文件数据分层存储方法采用文件访问热度、上一次的迁移分值和调节系数综合计算每个文件的迁移分值,其中文件访问热度通过每个文件的读写次数和读写数据长度范围进行加权计算,调节系统根据文件的大小、类型属性进行调节,这种迁移分值的计算方式,适应面更广,文件迁移更为合理,更加准确,同时也更好的提升文件系统分层存储系统的访问性能;
[0031]2、本文件数据分层存储方法进行跨文件系统层进行迁移时,文件仍保持统一的业务IO访问路径,无需要创建链接索引节点重定向至迁移后的文件路径,进而减少了资源的占用,同时减少文件读写时的IO放大,降低系统的复杂度。
附图说明
[0032]图1为本专利技术文件数据分层存储方法的流程图;
[0033]图2为本专利技术文件系统层的模块框图;
[0034]图3为本专利技术文件迁移分值计算的流程图。
具体实施方式
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036]需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
[0037]在一个实施例中,如图1

3所示,一种文件数据分层存储方法,包括:
[0038]步骤S1、递归遍历所有文件的大小、类型属性,并根据文件属性的类型将文件优先迁移至文件系统目标层。
[0039]需要说明的是,文件系统目标层包括热数据层、数据层和冷数据层。预先设置文件属性与文件系统目标层的关系:如将文件的类型为“.mp4/.doc/.jpg”或文件的大小大于10MB的优先迁移至热数据层,将文件的类型为“.mp4/.doc/.本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件数据分层存储方法,其特征在于:所述文件数据分层存储方法包括:递归遍历所有文件的大小、类型属性,并根据文件属性的类型将文件优先迁移至文件系统目标层;对最近一段时间内文件的读写请求信息进行统计,并根据读写请求信息计算每个文件的访问热度;根据访问热度、上一次的迁移分值和调节系数,综合计算每个文件的迁移分值;根据迁移分值将文件进行排序;根据排序的迁移分值将各文件迁移至对应的文件系统目标层。2.如权利要求1所述的文件数据分层存储方法,其特征在于:所述文件系统目标层包括热数据层、数据层和冷数据层。3.如权利要求1所述的文件数据分层存储方法,其特征在于:所述读写请求信息包括每个文件读写次数和读写数据长度范围;所述计算访问热度时,将每个文件的读写次数和读写数据长度范围进行加权计算。4.如权利要求3所述的文件数据分层存储方法,其特征在于:计算所述读写数据长度范围时,统计每个文件的读写操作的数据偏移地址和长度,并去除重叠的数据。5.如权利要求2所述的文件数据分层存储方法,其特征在于:调节系统α根据用户设置的待迁移文件属性调节:当设置待迁移的文件属...

【专利技术属性】
技术研发人员:王卫伟高利娟杨佳东孙涛江云飞
申请(专利权)人:中国电子科技集团公司第五十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1