一种基于实时归并的海量小文件存储性能优化方法及装置制造方法及图纸

技术编号:27481066 阅读:30 留言:0更新日期:2021-03-02 17:52
本发明专利技术提出了一种基于实时归并的海量小文件存储性能优化方法及装置,涉及计算机存储领域。其中包括一种基于实时归并的海量小文件存储性能优化方法及装置:接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;其中,所述待存储文件为大文件时存放到所述HDD存储资源池,所述待存储文件为小文件时存放到所述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据所述元数据信息生成文件的全局唯一标识key。本发明专利技术能够提升小文件写入速度,并且实现对海量小文件的合理存储。且实现对海量小文件的合理存储。且实现对海量小文件的合理存储。

【技术实现步骤摘要】
一种基于实时归并的海量小文件存储性能优化方法及装置


[0001]本专利技术涉及计算机存储领域,具体而言,涉及一种基于实时归并的海量小文件存储性能优化方法及装置。

技术介绍

[0002]伴随互联网、物联网、云计算、大数据等行业的迅速发展,音视频、图片、日志等各类文件数量均呈现指数型增长,终端设备需要不间断的上传大量文件,其中1M以下小文件的数量往往会达到百万级、千万级甚至亿级,此类文件被定义为海量小文件。海量小文件对终端设备的写入性能要求较高,对读取性能要求较低,如何对海量小文件进行合理存储对当前大数据时代可持续发展意义重大。
[0003]传统的文件存储系统主要基于树状目录层级结构,可扩展性有限。并且,海量小文件会导致目录树深度增大,严重影响了目录树的均衡效率,当出现大规模并发时,访问性能有限。此外,当前存储小文件一般使用的是HDD磁盘。因此,目前需要一种能够解决现有文件存储目录树不适合大规模文件存储以及HDD磁盘小文件存储效率低的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于实时归并的海量小文件存储性能优化方法,其能够实现对海量小文件的合理存储,并且提高小文件的存储效率。
[0005]本专利技术的另一目的在于提供一种基于实时归并的海量小文件存储性能优化方装置,其能够实现对海量小文件的合理存储,提高大量用户并发访问时的访问效率。
[0006]本专利技术的实施例是这样实现的:第一方面,本申请实施例提供一种基于实时归并的海量小文件存储性能优化方法,包括S1:接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;其中,上述待存储文件为大文件时存放到上述HDD存储资源池,上述待存储文件为小文件时存放到上述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据上述元数据信息生成文件的全局唯一标识key;S2:设定小文件归并数量的阈值和归并字节总数的阈值,当SSD存储资源池中存放上述小文件的上述归并数量或者上述字节总数超出阈值时,实时触发服务器的文档归并流程,服务器后台提取已有的上述小文件的内容归并成一个大文件,将上述大文件存储至上述HDD存储资源池;S3:上述小文件归并归档后,根据标识key映射到文件索引池中的元数据信息增加数据定位信息;S4:更新完上述小文件的上述元数据信息后,删除上述SSD数据池中被归并的上述小文件;S5:服务器接收客户端发送的上述文件数据访问请求,如果上述元数据信息中不存在
上述数据定位信息,则根据上述元数据信息解析出上述标识key,通过上述标识key从上述SSD存储资源池中访问对应的文件内容;如果上述元数据信息存在上述数据定位信息,根据上述数据定位信息从上述HDD存储资源池中找到上述小文件归并后的上述大文件,再从上述大文件中提取上述小文件的文件内容。
[0007]第二方面,本申请实施例提供一种基于实时归并的海量小文件存储性能优化装置,包括:数据请求接收模块:用于接收客户端发送的文件数据写入或者访问请求;文件数据分层存储模块:根据接收到的待存储文件元数据信息生成唯一身份标识key,以及与key对应的文件内容数据值value;以1M字节数为分界线将文件划分为大文件和小文件,大文件对应的value值写入HDD存储资源池,小文件对应的value值写入SSD存储资源池;小文件数据归并模块:设定小文件归并流程的触发条件,即小文件数量阈值和小文件字节总数阈值;当SSD存储资源池内的小文件数量或者字节数超出阈值时,会实时触发服务器文档归并流程,将资源池内小文件归并成一个大文件并写入HDD存储资源池;其中小文件归并流程的触发条件中,小文件数量上限阈值不得超过SSD存储资源池的最大并发访问量,小文件字节数上限阈值不得超过SSD存储资源池存储空间大小;小文件数据更新模块:根据被归并小文件的key值映射到对应元数据,添加数据定位信息,包括文件归并后的大文件的名称、路径、小文件在大文件中的位置偏移量和大小中的任意一项或多项;小文件原数据删除模块:小文件被归并归档且成功更新元数据信息后,再将其原文件数据从SSD存储资源池删除,以确保文件数据的可靠性与安全性,并且能够及时释放SSD存储资源池存储空间;文件数据读取模块:根据数据访问请求信息提出文件元数据信息并生成key,根据key标识从资源池读取文件内容,其中:大文件直接从HDD存储资源池读取;未被归并的小文件直接从SSD存储资源池读取;已被归并的小文件则需根据key映射到该文件在索引池中对应元数据,提取出数据定位信息,找到其被归并的大文件并从中提取相应位置的小文件内容。
[0008]相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:针对第一方面:本专利技术的目的在于提供一种基于实时归并的海量小文件存储性能优化方法,根据接收到的客户端文件存储请求信息,选用对象存储的方式对文件进行分层存储,从而将较大容量的大文件直接写入HDD存储资源池,将较小容量的小文件写入SSD存储资源池,实现了利用不同存储方式读取不同容量的文件,能够提高小容量文件的读取效率,并且通过HDD存储资源池便于快速读取和统一管理大容量文件。当小文件积累到固定数量或者字节数时,后台提取SSD存储资源池内小文件归并成大文件写入HDD存储资源池,保障客户端的正常使用。最后删除SSD存储资源池中归并后的原小文件数据,不影响文件的访问性能,同时释放出SSD存储资源池的存储空间,使之得到高效循环利用,降低了成本需求。本专利技术能够实现对海量小文件的合理存储,解决了现有文件存储目录树不适合大规模文件存储的问题,并且提高了小文件的存储效率,从而解决了利用HDD磁盘小文件存在的存储效率低问题。
[0009]针对第二方面:本专利技术的目的在于提供一种基于实时归并的海量小文件存储性能优化装置,其工作原理与有益效果与第一方面相同,在此不必重复描述。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0011]图1为本专利技术实施例一种基于实时归并的海量小文件存储性能优化方法的流程示意图;图2为本专利技术实施例一种基于实时归并的海量小文件存储性能优化方法的原理示意图。
具体实施方式
[0012]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0013]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实时归并的海量小文件存储性能优化方法,其特征在于,包括S1:接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;其中,所述待存储文件为大文件时存放到所述HDD存储资源池,所述待存储文件为小文件时存放到所述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据所述元数据信息生成文件的全局唯一标识key;S2:设定小文件归并数量的阈值和归并字节总数的阈值,当SSD存储资源池中存放所述小文件的所述归并数量或者所述字节总数超出阈值时,实时触发服务器的文档归并流程,服务器后台提取已有的所述小文件的内容归并成一个大文件,将所述大文件存储至所述HDD存储资源池;S3:所述小文件归并归档后,根据标识key映射到文件索引池中的元数据信息增加数据定位信息;S4:更新完所述小文件的所述元数据信息后,删除所述SSD数据池中被归并的所述小文件;S5:服务器接收客户端发送的所述文件数据访问请求,如果所述元数据信息中不存在所述数据定位信息,则根据所述元数据信息解析出所述标识key,通过所述标识key从所述SSD存储资源池中访问对应的文件内容;如果所述元数据信息存在所述数据定位信息,根据所述数据定位信息从所述HDD存储资源池中找到所述小文件归并后的所述大文件,再从所述大文件中提取所述小文件的文件内容。2.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:所述元数据信息包括文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。3.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:根据所述待存储文件的所述元数据信息,按“身份标识号+文件生成时间”拼接字符串生成文件的所述标识key。4.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:设置文件的分层字节数的阈值,当所述待存储文件的所述分层字节数大于阈值时,判定所述待存储文件为大文件,否则判定所述待存储文件为小文件。5.如权利要求4所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,设置文件的所述分层字节数阈值为1M。6.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:根据文件内容生成与所述标识key对应的value;所述标识key的value一一映射,通过...

【专利技术属性】
技术研发人员:杨鹏杨波
申请(专利权)人:南京群顶科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1