【技术实现步骤摘要】
【国外来华专利技术】混合文件系统架构、文件存储、动态迁移及其应用
本专利技术涉及分布式文件系统
,尤其涉及到混合有多个分布式文件系统的混合文件系统架构、文件存储、动态迁移及其应用。
技术介绍
在分布式文件系统研究领域,针对不同的领域和应用场景,不同的研究机构和企、事业单位可能设计不同架构的分布式文件系统以满足特定需求,例如淘宝文件系统TFS满足淘宝大量图片存储优化同时满足用户存储需求、HDFS主要应用于分布式计算,针对大的数据流具有很好的处理性能、Glusterfs采用无元数据服务器思想来优化小文件存储,及涉及大量元数据的操作、而FaceBook则主要针对其存储文件大小范围,和内容需求对HDFS进行了相应的改进、Ceph致力于提出高可用的分布式文件系统,设计多个metadata server提高元数据性能。鉴于以上不同文件系统设计目标不同,导致了文件系统的通用性较差,例如HDFS对大文件的读写具有较高的性能,实验分析得出当文件大于8M时其读写性能较好,Glusterfs则对小于8M的文件具有更好的I\O表现等等。在现有技术中,对于使用了不 ...
【技术保护点】
一种在包括混合有多个不同类型的分布式文件系统的混合文件系统架构中应用的文件存储处理方法,用于确定将待存储文件存放在哪个分布式文件系统中,所述文件存储处理方法包括:/n获取待存储文件的存储属性,其中,所述存储属性至少包括所述文件的大小;/n根据预先配置的存放规则和所述待存储文件的属性,确定将待存储文件存放在哪个分布式文件系统中;/n将所述待存储文件存储到所述确定的分布式文件系统中。/n
【技术特征摘要】
【国外来华专利技术】一种在包括混合有多个不同类型的分布式文件系统的混合文件系统架构中应用的文件存储处理方法,用于确定将待存储文件存放在哪个分布式文件系统中,所述文件存储处理方法包括:
获取待存储文件的存储属性,其中,所述存储属性至少包括所述文件的大小;
根据预先配置的存放规则和所述待存储文件的属性,确定将待存储文件存放在哪个分布式文件系统中;
将所述待存储文件存储到所述确定的分布式文件系统中。
根据权利要求1的文件存储处理方法,所述存放规则是基于训练样本集、利用人工智能学习算法学习得到的智能存放模型,所述训练样本集的每个训练样本的特征包括文件的存储属性和该文件已被确定布置于的文件系统的标签。
根据权利要求1所述的文件存储处理方法,其中所述文件的存储属性还包括:
文件的访问模式、访问权限和相关联的所有者,
其中访问模式类型选自下列项目之一:只读、只写、可读写和可执行。
根据权利要求2的文件存储处理方法,所述混合文件系统架构包括元数据管理服务器,
其中所述存放规则被存储于非易失性存储介质中,同时维护于元数据管理服务器内存中;以及
所述存放规则是动态更新的,
其中所述根据预先配置的存放规则和所述待存储文件的属性,确定将待存储文件存放在哪个分布式文件系统中包括:从元数据管理服务器中读取存放规则,根据读取的存放规则和所述待存储文件的属性,确定将待存储文件存放在哪个分布式文件系统中。
根据权利要求4的文件存储处理方法,所述存放规则还被维护于远程备用节点中。
根据权利要求2的文件存储处理方法,其中所述人工智能学习算法是决策树,所述智能存放模型是基于训练数据构造的决策树模型。
根据权利要求5所述的文件存储处理方法,其特征在于:所述决策树模型构造中进行了包括剪枝、交叉验证的优化处理。
根据权利要求6所述的文件存储处理方法,还包括:
由元数据管理服务器接收来自客户端的从混合文件系统架构读文件或者针对其更新文件的请求;
由元数据管理服务器获取待读取或更新文件的路径信息,进而得到文件的存储位置信息;
元数据管理服务器将所述待读取或更新文件的存放位置,返回给客户端;
由客户端根据返回的存放位置与相应的分布式文件系统通信,进行实际的读操作或更新操作。
根据权利要求5所述的文件存储处理方法,其特征在于,该文件已被确定布置于的文件系统的标签是基于文件在所述每个分布式文件系统上的I/O性能确定的,其中文件在所述每个分布式文件系统上的I/O性能如下经实验确定:
通过实验获取所述文件在每个分布式文件系统的读吞吐率Firt和写吞吐率Fiwt,读吞吐率Firt为每秒读取文件的数据大小,写吞吐率Fiwt为每秒写文件的数据大小;
计算该文件在每个分布式文件系统中的读吞吐率Firt和写吞吐率Fiwt之和作为文件在所述每个分布式文件系统上的I/O性能。
根据权利要求1至9中任一项所述的文件存储处理方法,其特征在于,还包括:
确定需要进行文件迁移的分布式文件系统;
针对需要进行文件迁移的分布式文件系统,确定该分布式文件系统上需要进行迁移的文件和迁移目的地;
对确定需要进行迁移的文件进行迁移。
根据权利要求10所述的文件存储处理方法,其特征在于,所述确定需要进行文件迁移的分布式文件系统包括:
计算任意两个分布式文件系统之间的使用率之差;
当所述使用率之差大于预定阈值时,确定使用率较高的分布式文件系统需要进行文件迁移。
根据权利要求10所述的文件存储处理方法,所述针对需要进行文
件迁移的分布式文件系统,确定该分布式文件系统上需要进行迁移的文件包括:
计算需要进行文件迁移的分布式文件系统中的每一文件迁移至其它分布式文件系统中的任一个上的迁移收益;
基于各个文件至其它分布式文件系统上的迁移收益的排序,确定需要进行迁移的文件以及该文件的迁移目的地。
根据权利要求12所述的文件存储处理方法,所述计算需要进行文件迁移的分布式文件系统中的每一文件迁移至其它分布式文件系统中的任一个上的迁移收益包括;
称需要进行文件迁移的分布式文件系统为分布式文件系统i,所述其它分布式文件系统中的任一个为分布式文件系统j,称分布式文件系统i上的文件为文件x,
获得文件x在分布式文件系统i上的读吞吐量和写吞吐量,以及预测文件x在分布式文件系统j上的读吞吐量和写吞吐量;
获得文件x在分布式文件系统i上的读频率和写频率;
至少基于文件x的大小、文件x在分布式文件系统i上的读频率和写频率、文件x在分布式文件系统i上的读吞吐量和写吞吐量以及文件x在分布式文件系统j上的读吞吐量和写吞吐量,计算文件x从分布式文件系统i迁移至分布式文件系统j的迁移收益。
根据权利要求13所述的文件存储处理方法,其中基于下述公式计算文件x从分布式文件系统i迁移至分布式文件系统j的迁移收益:
DFSi、DFSj表示分布式文件系统i,j,Fxrt(DFSi)、Fxrt(DFSj)分别是文件x在分布式文件系统i,j中读的吞吐率,Fxwt(DFSi)、Fxwt(DFSj)是文件x在分布式文件系统i,j中写的吞吐率,吞吐率为每秒读、写文件的大小,该读写吞吐率为文件大小的函数;Fxrf、Fxwf分别是文件x在分布式文件系统i中的读频率和写频率,sx为文件系统中需要迁移的文件x的大小。
根据权利要求13所述的文件存储处理...
【专利技术属性】
技术研发人员:钟叶青,张立冬,武永卫,
申请(专利权)人:深圳清华大学研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。