海量小文件的分布式存储方法和系统技术方案

技术编号:20221639 阅读:46 留言:0更新日期:2019-01-28 20:11
本发明专利技术提供海量小文件的分布式存储方法和系统,包括将物理磁盘通过逻辑分区形成多个虚拟磁盘;根据海量小文件的文件命名规则进行分类,创建目录索引树;根据文件命名规则解析所存储的海量小文件的文件名,获取其在目录索引树中的存储位置,存储海量小文件,对应的存储目录记为原始目录,并对海量小文件进行冗余存储,对应的存储目录记为冗余目录;当出现所述原始目录、所述冗余目录两者中的文件数据不一致时,触发数据同步与恢复操作。本发明专利技术针对海量小文件的分布式存储,在存储大量小文件时通过建立索引及文件名定位,实现在海量数据中迅速定位信息,在可靠性上利用数据冗余来保证,机制简单,容错性强,在保证正确性的同时减少元数据存储空间。

【技术实现步骤摘要】
海量小文件的分布式存储方法和系统
本专利技术涉及分布式存储领域,具体地,涉及海量小文件的分布式存储方法和系统,尤其是涉及一种应用于台风分析系统中的分布式数据组织方法。
技术介绍
随着科学技术的进步,人类社会正在进入一个数字信息爆炸的时代。互联网的普及为传统行业的发展带来了新的增长点,各行各业纷纷开始向信息化转型,数据的总量正在几何级数增长。面对数据的大爆炸,需要解决的第一个问题就是如何有效存储的问题。显然传统的单机存储模式已经远远满足不了现实的要求。分布式存储成为现代信息存储的必然要求。气象领域也在进行着信息化的过程,台风分析作为气象领域的一个重要分支,在数据存储与分析时同样面临着如优化存储和如何快速定位信息的问题。与普通行业不同的是台风的原始数据来源于各种卫星的侦查的大量卫星云图以及经过人工统计的台风的路径信息。这些数据本身的属于小文件,通常大小小于10M,而且经过多年的累计,云图数量已经达到了上千万张,数据量已经达到T级别甚至是P级别。如何有效的存储这些数据,并且在这些数据中如何快速定位信息,成为气象领域信息化亟待解决的问题。气象台风系统数据的有着数据量大,数据异构和数据噪声严重本文档来自技高网...

【技术保护点】
1.一种海量小文件的分布式存储方法,其特征在于,包括:磁盘分区步骤:将物理磁盘通过逻辑分区形成多个虚拟磁盘;建立目录索引树步骤:基于所述虚拟磁盘根据海量小文件的文件命名规则进行分类,根据所述分类创建目录索引树;文件存储步骤:根据文件命名规则解析所存储的海量小文件的文件名,获取海量小文件在所述目录索引树中的存储位置,存储海量小文件,对应的存储目录记为原始目录,并对海量小文件进行冗余存储,对应的存储目录记为冗余目录;数据同步与恢复步骤:当出现所述原始目录、所述冗余目录两者中的文件数据不一致的情况时,触发数据同步与恢复操作。

【技术特征摘要】
1.一种海量小文件的分布式存储方法,其特征在于,包括:磁盘分区步骤:将物理磁盘通过逻辑分区形成多个虚拟磁盘;建立目录索引树步骤:基于所述虚拟磁盘根据海量小文件的文件命名规则进行分类,根据所述分类创建目录索引树;文件存储步骤:根据文件命名规则解析所存储的海量小文件的文件名,获取海量小文件在所述目录索引树中的存储位置,存储海量小文件,对应的存储目录记为原始目录,并对海量小文件进行冗余存储,对应的存储目录记为冗余目录;数据同步与恢复步骤:当出现所述原始目录、所述冗余目录两者中的文件数据不一致的情况时,触发数据同步与恢复操作。2.根据权利要求1所述的海量小文件的分布式存储方法,其特征在于,所述磁盘分区步骤包括:磁盘编号步骤:将所述物理磁盘进行编号,记为已编号物理磁盘,其中编号记为i,i=1,2,…,N;逻辑分区步骤:将m个已编号物理磁盘划分定义为一个虚拟磁盘,所述物理磁盘被划分为N/m向上取整个虚拟磁盘,记为n个逻辑分区。3.根据权利要求1所述的海量小文件的分布式存储方法,其特征在于,所述建立目录索引树步骤包括:建立层级节点步骤:将所述分类的类别个数记为P,将第i个分类的类成员个数记为Pi,其中i取正整数,将所述目录索引树的层级定为P+1层,第0层为根节点,其他层按照所述分类的逻辑所属关系进行定义,每层的节点个数与相应的Pi大小相同;确定原始目录存储分区步骤:根据所述海量小文件的文件命名计算存储分区编号,将所述文件命名规则定义为特征值A、特征值B、特征值C的组合,存储分区编号F按以下公式计算:F=(f(特征值A)%n+特征值B/n+特征值C/n)/P1其中,f(特征值A)为特征值A类别名称的编码值之和,%为取模运算,P1为第一层的节点个数,n为虚拟磁盘的个数;确定冗余目录存储分区步骤:将所述原始目录的逻辑分区排除,将剩余的n-1个逻辑分区重新编号,存储分区编号F'按以下公式计算:F'=(f(特征值A)%(n-1)+特征值B/(n-1)+特征值C/(n-1))/P1其中,f(特征值A)为特征值A类别名称的编码值之和,%为取模运算,P1为第一层的节点个数,n-1为去除原始目录后的虚拟磁盘的个数。4.一种海量小文件的分布式存储系统,其特征在于,包括:磁盘分区模块:将物理磁盘通过逻辑分区形成多个虚拟磁盘;建立目录索引树模块:基于所述虚拟磁盘根据海量小文件的文件命名规则进行分类,根据所述分类创建目录索引树;文件存储模块:根据文件命名规则解析所存储的海量小文件的文件名,获取海量小文件在所述目录索引树中的存储位置,存储海量小文件,对应的存储目录记为原始目录,并对海量小文件进行冗余存储,对应的存储目录记为冗余目录;数据同步与恢复模块:当出现所述原始目录、所述冗余目录两者中的文件数据不一致的情况时,触发数据同步与恢复操作。5.根据权利要求4所述的海量小文件的分布式存储系统,其特征在于,所述磁盘分区模块包括:磁盘编号模块:将所述物理磁盘进行编号,记为已编号物理磁盘,其中编号记为i,i=1,2,…N;逻辑分区模块...

【专利技术属性】
技术研发人员:唐鹏谢彬解维居晓清张楠侯亮
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1