一种基于Ceph的海量小文件存取优化方法技术

技术编号:19263425 阅读:36 留言:0更新日期:2018-10-27 02:21
本发明专利技术公开一种基于Ceph的海量小文件存取优化方法,当用户存储文件时,先利用K‑means聚类算法获得小文件的关联分组,再对每组内的文件按从大到小的顺序进行排序,然后将关联分组内的关联文件进行合并后再存储至Ceph中。当用户发起访问请求时,系统先检查请求文件是否在缓存中,若存在直接读取并返回请求文件;否则将请求信息发送到Ceph集群,实现小文件的读取并根据文件块间的利用率及相关率进行小文件的预取及缓存,返回请求文件及预取小文件。该发明专利技术通过减少用户与集群的交互,减少用户访问时间,提高海量小文件的访问效率,提高系统的整体性能。

An optimization method of massive small file access based on Ceph

The invention discloses a Ceph-based optimization method for accessing large-scale small files. When a user stores a file, the association group of small files is obtained by using K_means clustering algorithm, and then the files in each group are sorted in order from large to small, then the association files in the association group are merged and stored in Ceph. When a user initiates an access request, the system first checks whether the request file is in the cache, if there is a direct read and return the request file; otherwise, the request information is sent to the Ceph cluster to read the small file and pre-fetch and cache the small file according to the utilization rate and correlation rate between the file blocks, and then returns the request file and pre-fetch. Take small files. The invention can reduce the interaction between users and clusters, reduce the access time of users, improve the access efficiency of massive small files, and improve the overall performance of the system.

【技术实现步骤摘要】
一种基于Ceph的海量小文件存取优化方法
本专利技术涉及分布式文件存储
,具体涉及一种基于Ceph的海量小文件存取优化方法。
技术介绍
随着云计算和大数据的迅速发展,全球数据量呈指数递增,传统的存储系统由于其设备成本和维护成本等因素已不能渐渐满足人的存储需求。此外,随着小文件数量的不断增大,大部分分布式存储系统已经不能满足小文件的高效存储和读取的需求。如何解决海量小文件的存储和管理问题,提高小文件的存储和访问效率是现在最大的挑战。Ceph是一种分布式文件系统,其在处理大文件时,可以实现文件的高效存储和管理,但Ceph在存储海量小文件时,仍存在一些不足:(1)海量小文件的存储效率较低。Ceph本地存储接口为支持事务,引入日志机制使得所有的写入操作都需要先写入日志,再通过对象存储接口写入本地文件系统,因此在大规模连续I/O的情况下,实际磁盘上输出的吞吐量是其物理性能的一半,导致小文件存储性能较低;(2)海量小文件的读取效率不高。当小文件被频繁访问时,集群需要在多个存储节点之间不断跳跃查找,因此会导致Ceph集群的小文件读取性能较差。
技术实现思路
本专利技术所要解决的是Ceph在处理海本文档来自技高网...

【技术保护点】
1.一种基于Ceph的海量小文件存取优化方法,其特征是,包括步骤如下:步骤1、获取客户端同一时段内待上传的文件的文件的文件名和文件大小,并根据设定的文件阈值对这些文件进行分类:当待上传的文件的大小大于文件阈值时,则判定为大文件,直接上传到Ceph集群;当待上传的文件的大小等于或小于文件阈值时,则判定为小文件;步骤2、利用K‑means聚类算法对小文件进行关联分组,并对各个分组内的小文件按照文件大小从大到小进行排序,再将各分组内的小文件依次进行合并后上传到Ceph集群,同时根据小文件在合并文件内的映射关系生成索引文件;步骤3、当用户发出访问请求时,客户端判断请求文件是否在客户端的缓存中:若在客户...

【技术特征摘要】
1.一种基于Ceph的海量小文件存取优化方法,其特征是,包括步骤如下:步骤1、获取客户端同一时段内待上传的文件的文件的文件名和文件大小,并根据设定的文件阈值对这些文件进行分类:当待上传的文件的大小大于文件阈值时,则判定为大文件,直接上传到Ceph集群;当待上传的文件的大小等于或小于文件阈值时,则判定为小文件;步骤2、利用K-means聚类算法对小文件进行关联分组,并对各个分组内的小文件按照文件大小从大到小进行排序,再将各分组内的小文件依次进行合并后上传到Ceph集群,同时根据小文件在合并文件内的映射关系生成索引文件;步骤3、当用户发出访问请求时,客户端判断请求文件是否在客户端的缓存中:若在客户端的缓存中,则直接从客户端的缓存中直接访问该请求文件;否则,客户端将请求信息上传Ceph集群;步骤4、Ceph集群接收请求信息,并根据请求文件的文件名确定其文件类型,若请求文件为大文件时,则直接从Ceph集群中读取该请求文件,并存储到客户端缓存中供用户访问,若请求文件为小文件时,则先根据索引文件确定请求文件在合并文件中的具体位置信息,再从Ceph集群中读取该请求文件,并存储到客户端缓存中供用户访问。2.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,步骤1中,文件阈值根据Ceph集群文件块大小设定。3.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,步骤2中,各个分组内的小文件在关联合并过程中,需要判断待合并的小文件与之前合并生成的合并文件的大小之和是否大于文件阈值;若小于等于文件阈值,直接将待合并的小文件合并到之前合并生成的合并文件中,否则,需要重新申请一个合并文件。4.根据权利要求1所述的一种基于Ceph的海量小文件存取优化方法,其特征是,步骤2中,索引文件的结构为<key,value>,其中key保存小文件的文件名,...

【专利技术属性】
技术研发人员:王勇陆小霞叶苗郇宜鸣
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1