The invention provides a distributed and centralized hybrid data storage system based on hierarchical governance. By combining distributed file system HDFS with centralized storage network file system (NFS), HDFS stores high activity data (or thermal data) and NFS stores low activity data (or warm and cold data). By providing user-customized file storage and location strategy, low-activity files defined by user policy can be slowly released from HDFS to NFS system, and the corresponding space on HDFS can be released. The invention can help large data application vendors based on HDFS to manage and schedule storage resources effectively, ensure that high-activity data is managed in a distributed storage mode, and provide high concurrency, while low-activity data can be stored in a NFS mode without causing the expansion of HDFS capacity (horizontal expansion). Increasing unnecessary computing resources, resulting in resource cost. Through the good vertical expansion ability of NFS, the warm and cold data which occupies the majority of the total data share are managed in a relatively cheap and safe way, and the effective management of multi-level data is realized.
【技术实现步骤摘要】
基于分层治理的HDFS分布式与集中式混合数据存储系统的方法
本专利技术属于涉及信息
,尤其是涉及一种基于数据分层治理的HDFS分布式于集中式混合数据存储的方法。
技术介绍
近年来,随着大数据应用的广泛发展,基于hadoop的运算框架已经成为业界标准的并行运算环境之一。而与hadoopmap-reduce对应的分布式文件系统HDFS也已经成为一个业界标准的分布式存储系统,其具备的多幅本和纠删码机制可以以比较便捷的方式保护数据,同时提供高并发能力。HDFS主要依赖hadoop集群的运算节点(计算服务器节点)的磁盘进行存储,因此具备横向扩展能力,但也因此对存储容量的扩展形成了一定程度的制约。特别是对有纵向扩展能力要求的场景,即无需扩展计算能力,只需扩展存储能力的场景。横向扩展往往造成计算资源的浪费,也间接造成能源的浪费。本项专利基于对数据治理的观察,在活跃数据(热数据)与非活跃数据(温冷数据)并存的应用中,通常需要数据迁移策略,以便将非活跃数据迁移至响应速度低一些的存储介质中。在本项专利中,通过预设或用户定义的活跃度检测算法,将HDFS的数据文件依据活跃度下移到以网络文件系统实现的集中式存储(NFS存储)中。鉴于HDFS的高并和数据的高本地命中率,适于保存活跃数据,而将非活跃数据迁移至以NFS为基础的二级存储介质,从而保障在无需横向扩展的同时,支持良好的纵向扩展并具备接近HDFS的响应速度。
技术实现思路
针对现有的HDFS分布式文件系统存在的纵向扩展能力问题和数据治理问题,本专利技术的目的是提供一种高效的自动化数据治理方法,将HDFS的非活跃数据自动下移到N ...
【技术保护点】
1.基于分层治理的HDFS分布式与集中式混合数据存储系统的方法,包括:步骤一,对HDFS文件系统的namenode(即读写操作的主控系统)进行修改,使其支持:1.对文件读写的动态采样;2.多副本块存储在异构存储介质间的调度,即namenode可以制定数据块在datanode(即HDFS的数据存储节点)和NFS存储之间切换。步骤二,定义文件数据迁移规则,即根据动态采样得来的文件读写操作记录,实现将数据存储依据数据活跃度从高到低在如下从1到4的存储状态依次转换:1.三副本同一存储介质(计算服务器节点的磁盘);2.三副本异构存储介质(计算服务器节点的磁盘+NFS存储设备);3.二副本异构存储介质(计算服务器节点的磁盘+NFS存储设备);4.NFS存储。步骤三,实现根据动态采样决策存储状态切换的触发算法。步骤四,修改HDFS数据读写机制以支持自动化副本策略选择,即由HDFS缺省的三副本在同一存储介质(计算服务器节点的磁盘)的存储策略切换至三副本在异构存储介质(计算服务器节点的磁盘+NFS存储设备)的存储策略或二副本在异构存储介质(计算服务器节点的磁盘+NFS存储设备)的存储策略。
【技术特征摘要】
1.基于分层治理的HDFS分布式与集中式混合数据存储系统的方法,包括:步骤一,对HDFS文件系统的namenode(即读写操作的主控系统)进行修改,使其支持:1.对文件读写的动态采样;2.多副本块存储在异构存储介质间的调度,即namenode可以制定数据块在datanode(即HDFS的数据存储节点)和NFS存储之间切换。步骤二,定义文件数据迁移规则,即根据动态采样得来的文件读写操作记录,实现将数据存储依据数据活跃度从高到低在如下从1到4的存储状态依次转换:1.三副本同一存储介质(计算服务器节点的磁盘);2.三副本异构存储介质(计算服务器节点的磁盘+NFS存储设备);3.二副本异构存储介质(计算服务器节点的磁盘+NFS存储设备);4.NFS存储。步骤三,实现根据动态采样决策存储状态切换的触发算法。步骤四,修改HDFS数据读写机制以支持自动化副本策略选择,即由HDFS缺省的三副本在同一存储介质(计算服务器节点的磁盘)的存储策略切换至三副本在异构存储介质(计算服务器节点的磁盘+NFS存储设备)的存储策略或二副本在异构存储介质(计算服务器节点的磁盘+NFS存储设备)的存储策略。2.根据权利要求1基于分层治理的HDFS分布式与集中式混合数据存储系统的方法,其特征在于建立一种高效的数据分层治理机制,可以将数据文件依据活跃度的降低从HDFS分布式文件系统的存储介质中逐渐下移到NFS存储设备。3.根据权利要求1基于分层治理的HDFS分布式与集中式混合数据存储系统的方法,其特征在于建立一种高效的数据分层治理机制,可以将数据文件依据活跃度的升高从NFS存储设备中逐渐上移到HDFS分布式文件系统的存储介质。4.根据权利要求1所述基于分层治理的HDFS分布式与集中式混合数据存储系统的方法,其特征在于支持标准的HDFS用户接口,因此兼容目前所有基于hadoop部署的大数据应用。5.根据权利要求1所述基于分层治理的HDFS分布式与集中式混合数据存储系统的...
【专利技术属性】
技术研发人员:赵继胜,吴宇,
申请(专利权)人:上海孚典智能科技有限公司,吴宇,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。