基于分层治理的HDFS分布式与集中式混合数据存储系统的方法技术方案

技术编号：19388903 阅读：56 留言：0更新日期：2018-11-10 02:02

本发明专利技术提供了一种基于分层治理的分布式与集中式混合数据存储系统，通过将分布式文件系统HDFS与集中式存储的网络文件系统(NFS)结合，以HDFS存储高活性数据(或称为热数据)，以NFS存储低活性数据(或称为温冷数据)。通过提供用户可定制的文件存储定位策略，可以将基于用户策略定义的低活性文件由HDFS缓释到NFS系统上，并释放HDFS上相应的空间。本项发明专利技术可以帮助使用基于HDFS的大数据应用厂商对存储资源进行有效的管理和调度，确保高活性数据以分布式存储方式进行管理，并提供高并发相应，而低活性数据可以NFS方式存储，而无须引发由扩展HDFS容量(横向扩展)而导致增加不必要的计算资源，从而造成资源量费的情况。通过NFS良好的纵向扩展能力，保障了占据数据总体份额多数的温冷数据以相对低廉且安全的方式进行管理，实现了对多层次数据的有效治理。

HDFS distributed and centralized hybrid data storage system based on Hierarchical Governance

The invention provides a distributed and centralized hybrid data storage system based on hierarchical governance. By combining distributed file system HDFS with centralized storage network file system (NFS), HDFS stores high activity data (or thermal data) and NFS stores low activity data (or warm and cold data). By providing user-customized file storage and location strategy, low-activity files defined by user policy can be slowly released from HDFS to NFS system, and the corresponding space on HDFS can be released. The invention can help large data application vendors based on HDFS to manage and schedule storage resources effectively, ensure that high-activity data is managed in a distributed storage mode, and provide high concurrency, while low-activity data can be stored in a NFS mode without causing the expansion of HDFS capacity (horizontal expansion). Increasing unnecessary computing resources, resulting in resource cost. Through the good vertical expansion ability of NFS, the warm and cold data which occupies the majority of the total data share are managed in a relatively cheap and safe way, and the effective management of multi-level data is realized.

全部详细技术资料下载

【技术实现步骤摘要】
基于分层治理的HDFS分布式与集中式混合数据存储系统的方法
本专利技术属于涉及信息
，尤其是涉及一种基于数据分层治理的HDFS分布式于集中式混合数据存储的方法。
技术介绍
近年来，随着大数据应用的广泛发展，基于hadoop的运算框架已经成为业界标准的并行运算环境之一。而与hadoopmap-reduce对应的分布式文件系统HDFS也已经成为一个业界标准的分布式存储系统，其具备的多幅本和纠删码机制可以以比较便捷的方式保护数据，同时提供高并发能力。HDFS主要依赖hadoop集群的运算节点(计算服务器节点)的磁盘进行存储，因此具备横向扩展能力，但也因此对存储容量的扩展形成了一定程度的制约。特别是对有纵向扩展能力要求的场景，即无需扩展计算能力，只需扩展存储能力的场景。横向扩展往往造成计算资源的浪费，也间接造成能源的浪费。本项专利基于对数据治理的观察，在活跃数据(热数据)与非活跃数据(温冷数据)并存的应用中，通常需要数据迁移策略，以便将非活跃数据迁移至响应速度低一些的存储介质中。在本项专利中，通过预设或用户定义的活跃度检测算法，将HDFS的数据文件依据活跃度下移到以...

【技术保护点】
1.基于分层治理的HDFS分布式与集中式混合数据存储系统的方法，包括：步骤一，对HDFS文件系统的namenode(即读写操作的主控系统)进行修改，使其支持：1.对文件读写的动态采样；2.多副本块存储在异构存储介质间的调度，即namenode可以制定数据块在datanode(即HDFS的数据存储节点)和NFS存储之间切换。步骤二，定义文件数据迁移规则，即根据动态采样得来的文件读写操作记录，实现将数据存储依据数据活跃度从高到低在如下从1到4的存储状态依次转换：1.三副本同一存储介质(计算服务器节点的磁盘)；2.三副本异构存储介质(计算服务器节点的磁盘+NFS存储设备)；3.二副本异构存储介质(计...

【技术特征摘要】
1.基于分层治理的HDFS分布式与集中式混合数据存储系统的方法，包括：步骤一，对HDFS文件系统的namenode(即读写操作的主控系统)进行修改，使其支持：1.对文件读写的动态采样；2.多副本块存储在异构存储介质间的调度，即namenode可以制定数据块在datanode(即HDFS的数据存储节点)和NFS存储之间切换。步骤二，定义文件数据迁移规则，即根据动态采样得来的文件读写操作记录，实现将数据存储依据数据活跃度从高到低在如下从1到4的存储状态依次转换：1.三副本同一存储介质(计算服务器节点的磁盘)；2.三副本异构存储介质(计算服务器节点的磁盘+NFS存储设备)；3.二副本异构存储介质(计算服务器节点的磁盘+NFS存储设备)；4.NFS存储。步骤三，实现根据动态采样决策存储状态切换的触发算法。步骤四，修改HDFS数据读写机制以支持自动化副本策略选择，即由HDFS缺省的三副本在同一存储介质(计算服务器节点的磁盘)的存储策略切换至三副本在异构存储介质(计算服务器节点的磁盘+NFS存储设备)的存储策略或二副本在异构存储介质(计算服务器节点的磁盘+NFS存储设备)的存储策略。2.根据权利要求1基于分层治理的HDFS分布式与集中式混合数据存储系统的方法，其特征在于建立一种高效的数据分层治理机制，可以将数据文件依据活跃度的降低从HDFS分布式文件系统的存储介质中逐渐下移到NFS存储设备。3.根据权利要求1基于分层治理的HDFS分布式与集中式混合数据存储系统的方法，其特征在于建立一种高效的数据分层治理机制，可以将数据文件依据活跃度的升高从NFS存储设备中逐渐上移到HDFS分布式文件系统的存储介质。4.根据权利要求1所述基于分层治理的HDFS分布式与集中式混合数据存储系统的方法，其特征在于支持标准的HDFS用户接口，因此兼容目前所有基于hadoop部署的大数据应用。5.根据权利要求1所述基于分层治理的HDFS分布式与集中式混合数据存储系统的...

【专利技术属性】
技术研发人员：赵继胜，吴宇，
申请(专利权)人：上海孚典智能科技有限公司，吴宇，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人