基于HDFS的分布式多级存储系统及方法技术方案

技术编号:20242184 阅读:35 留言:0更新日期:2019-01-29 23:17
本发明专利技术提供了一种基于HDFS的分布式多级存储系统,将多级存储设备中的数据进行统一管理与调度,提升数据存储效率;实现数据存储过程中的策略配置,所述策略配置包括数据持久化策略配置、缓存数据释放策略配置、数据锁定与解锁策略配置、存储空间预留策略配置;构建并更新数据索引、管理数据一致性;实现基于HDFS的数据检索。利用多级存储调度技术,将数据读写速度提升到内存级别,有效解决高并发数据访问时的性能瓶颈,提升系统响应速度和并发处理能力,解决分布式文件系统读写效率问题,通过热度数据迁移、数据预加载和数据持久化功能,有效地利用内存和SSD,加速分布式数据读写速度,提升系统响应速度和并发处理能力。

【技术实现步骤摘要】
基于HDFS的分布式多级存储系统及方法
本专利技术涉及分布式存储领域,具体地,涉及基于HDFS的分布式多级存储系统及方法。
技术介绍
目前分布式文件系统通常运行于通用硬件上,其数据存储在普通硬盘中,在高并发访问数据时,其读写速度受到硬盘限制,存在性能瓶颈;使用固态存储盘和内存代替传统机械硬盘可以提升数据读写效率,但在海量数据规模的情况下,高性能存储介质会带来非常巨大的硬件成本,系统存储存在存储器大容量、高速度、低成本这三者之间的矛盾问题。专利文献CN104965677A公开了提出一种存储系统,该存储系统包括计算资源节点、存储资源节点和PCIe网络;其中,所述计算资源节点和所述存储资源节点分别连接到所述PCIe网络上,以及,所述PCIe网络、所述计算资源节点和所述存储资源节点在物理上均是分离设置的,且,都是可扩展的。该存储系统能够提高灵活性,提高存储资源的访问速度,并降低成本。进一步的,该存储系统还可以同时支持SAS、SATA和PCIe接口中至少一种接口的磁盘,并且,磁盘的存储媒介可以包括HDD和SSD,通过支持不同接口和不同存储媒介的磁盘,实现混合存储系统。另外,该存储系统可以通过动态或静态的配置为计算资源节点分配物理盘或逻辑盘,实现资源按需配置。但是上述专利文献并没有对存储系统的存储资源节点进行有效的资源调度。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于HDFS的分布式多级存储系统及方法。根据本专利技术提供的一种基于HDFS的分布式多级存储系统,包括如下任一个或任多个模块:多级存储模块:将多级存储设备中的数据进行统一管理与调度;策略配置模块:实现数据存储过程中的策略配置,所述策略配置包括数据持久化策略配置、缓存数据释放策略配置、数据锁定与解锁策略配置、存储空间预留策略配置中的任一项或任多项配置;数据管理模块:构建并更新数据索引、管理数据一致性;数据检索模块:实现基于HDFS的数据检索。优选地,所述多级存储模块包括:创建统一目录空间模块:对多级存储设备提供分布式的统一目录空间,通过所述统一目录空间能够实现多存储设备间存储数据的统一视图;数据热度采集模块:采集数据热度参数,所述数据热度参数作为数据热度模型计算;数据热度计算模块:根据数据热度模型计算数据热度值;数据热度调度模块:根据数据热度值,区分数据的热度分类属性,根据数据所属的热度分类属性对数据在多级存储设备之间调度,记为数据调度。优选地,所述多级存储设备主要包括顶层存储设备、中间存储设备、底层存储设备这些存储设备,顶层存储设备、中间存储设备、底层存储设备的数据存储速度依次递减,将由顶层存储设备、中间存储设备、底层存储设备构成的存储系统记为底层存储系统;所述热度分类属性主要包括热数据、冷数据,热数据存储在顶层存储设备,冷数据存储在底层存储设备;所述数据调度是将数据存储于顶层存储设备,当顶层存储设备容量达到阈值时,将数据迁移至中间存储设备,当中间存储设备容量达到阈值时,将数据存储于底层存储中,并根据数据热度变化在存储设备之间动态迁移。优选地,上述系统还包括:缓存数据预加载模块:将底层存储设备中的存储数据加载到内存;缓存数据持久化模块:将内存中的数据持久化到底层存储设备中;缓存数据释放模块:释放内存中的数据,回收内存的存储空间。优选地,所述数据持久化策略配置主要包括数据同步写入内存和底层存储系统、数据同步写入内存但不写入底层存储系统、数据同步写入底层存储系统但不写入内存、数据同步写入内存并异步写入底层存储系统;缓存数据释放策略配置主要包括移出最大的缓存数据直到释放出所需大小的空间、移出任意的数据块直到释放出所需大小的空间、移出最近最少使用的数据块直到释放出所需大小的空间;数据锁定与解锁策略配置主要包括将数据块固定在内存中,所述数据块不会从内存中被移出;存储空间预留策略配置为至少对顶层存储设备、中间存储设备、底层存储设备中的一项的存储空间设置阈值,所述阈值小于所述存储空间的大小。优选地,所述数据索引主要包括数据名称、路径、位置、大小、创建时间、校验码;所述数据一致性是相同数据在多级存储设备间能够同步/异步写入、更新、删除、数据校验。优选地,所述数据检索是按照文件名、数据块ID、数据存储位置、数据存储节点进行条件检索,所述条件检索包括单条件检索、组合条件检索,支持精准条件检索以及模糊条件检索。优选地,上述系统包括Web门户模块:提供数据统一管理操作界面,所述数据统一管理操作界面主要包括数据查询、缓存数据加载操作、缓存数据持久化操作。优选地,上述系统包括二次开发接口模块:提供数据多级存储管理接口,所述管理接口主要包括缓存数据加载接口、缓存数据持久化接口、数据检索接口。根据本专利技术提供的一种基于HDFS的分布式多级存储方法,其特征在于,包括如下任一个或任多个步骤:多级存储步骤:将多级存储设备中的数据进行统一管理与调度;策略配置步骤:实现数据存储过程中的策略配置,所述策略配置包括数据持久化策略配置、缓存数据释放策略配置、数据锁定与解锁策略配置、存储空间预留策略配置中的任一项或任多项配置;数据管理步骤:构建并更新数据索引、管理数据一致性;数据检索步骤:实现基于HDFS的数据检索。与现有技术相比,本专利技术具有如下的有益效果:1)利用多级存储调度技术,将数据读写速度提升到内存级别,有效的解决高并发数据访问时的性能瓶颈,提升系统响应速度和并发处理能力,解决分布式文件系统读写效率问题;2)采用数据热度统计,动态地将热数据迁移至高速缓存设备,将冷数据迁移至低速存储设备,通过合理的数据分配策略有效的缩减了费用成本,增加了存储容量;3)提供分布式多级存储,提升海量数据I/O吞吐率,为数据密集型应用提供有效支撑。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为基于HDFS的分布式多级存储系统的系统架构图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。为了解决分布式文件系统读写效率问题,本专利技术利用多级存储调度技术将多级存储设备,映射成本地虚拟磁盘,并提供分布式统一目录空间,为多级存储设备提供分布式统一目录空间,用于存储数据节点的数据。构建分布式数据热度模型,对数据的热度进行计算,根据调度策略将数据在多级存储设备上进行动态迁移以达到数据大容量与数据高速度之间的平衡。对统一目录空间中的所有数据块建立索引进行维护并提供数据检索功能,可浏览数据块的存储位置,且可以根据用户需求改变数据块的当前存储位置,进行数据预加载与数据持久化操作。通过内存和SSD进行数据访问,能够大大提升其读写效率。通过热度数据迁移、数据预加载和数据持久化功能,有效地利用内存和SSD,加速分布式数据读写速度,提升系统响应速度和并发处理能力。本专利技术基于Hadoop分布式文件系统(HDFS)和多级存储调度技术,将内存(MEM)、固态硬盘(SSD)、硬盘驱动器(HDD)的数据进行统一管理与调度,并提供分布式统一目录空间。根据分布式数据热度,在不同本文档来自技高网...

【技术保护点】
1.一种基于HDFS的分布式多级存储系统,其特征在于,包括如下任一个或任多个模块:多级存储模块:将多级存储设备中的数据进行统一管理与调度;策略配置模块:实现数据存储过程中的策略配置,所述策略配置包括数据持久化策略配置、缓存数据释放策略配置、数据锁定与解锁策略配置、存储空间预留策略配置中的任一项或任多项配置;数据管理模块:构建并更新数据索引、管理数据一致性;数据检索模块:实现基于HDFS的数据检索。

【技术特征摘要】
1.一种基于HDFS的分布式多级存储系统,其特征在于,包括如下任一个或任多个模块:多级存储模块:将多级存储设备中的数据进行统一管理与调度;策略配置模块:实现数据存储过程中的策略配置,所述策略配置包括数据持久化策略配置、缓存数据释放策略配置、数据锁定与解锁策略配置、存储空间预留策略配置中的任一项或任多项配置;数据管理模块:构建并更新数据索引、管理数据一致性;数据检索模块:实现基于HDFS的数据检索。2.根据权利要求1所述的基于HDFS的分布式多级存储系统,其特征在于,所述多级存储模块包括:创建统一目录空间模块:对多级存储设备提供分布式的统一目录空间,通过所述统一目录空间能够实现多存储设备间存储数据的统一视图;数据热度采集模块:采集数据热度参数,所述数据热度参数作为数据热度模型计算;数据热度计算模块:根据数据热度模型计算数据热度值;数据热度调度模块:根据数据热度值,区分数据的热度分类属性,根据数据所属的热度分类属性对数据在多级存储设备之间调度,记为数据调度。3.根据权利要求2所述的基于HDFS的分布式多级存储系统,其特征在于,所述多级存储设备主要包括顶层存储设备、中间存储设备、底层存储设备这些存储设备,顶层存储设备、中间存储设备、底层存储设备的数据存储速度依次递减,将由顶层存储设备、中间存储设备、底层存储设备构成的存储系统记为底层存储系统;所述热度分类属性主要包括热数据、冷数据,热数据存储在顶层存储设备,冷数据存储在底层存储设备;所述数据调度是将数据存储于顶层存储设备,当顶层存储设备容量达到阈值时,将数据迁移至中间存储设备,当中间存储设备容量达到阈值时,将数据存储于底层存储中,并根据数据热度变化在存储设备之间动态迁移。4.根据权利要求1所述的基于HDFS的分布式多级存储系统,其特征在于,还包括:缓存数据预加载模块:将底层存储设备中的存储数据加载到内存;缓存数据持久化模块:将内存中的数据持久化到底层存储设备中;缓存数据释放模块:释放内存中的数据,回收内存的存储空间。5.根据权利要求3所述的基于HDFS的分布式多级存储系统,其特征在于,所述数据持久...

【专利技术属性】
技术研发人员:沈晨王敬平黄子君杜真真褚少鹤张扬徐馨韬周洁
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1