一种基于hadoop元数据的冷数据识别方法及系统技术方案

技术编号:14820429 阅读:89 留言:0更新日期:2017-03-15 13:10
一种基于hadoop元数据的冷数据识别方法,其可以很明确地知道hadoop集群文件系统中哪些是冷数据,根据元数据统计分析,然后推进集群用户删除冷数据,有效地识别冷数据,从而使得集群存储空间得到高效的利用。该方法包括:(1)准备镜像文件;(2)解析镜像文件;(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。还有系统。

【技术实现步骤摘要】

本专利技术涉及大数据处理的
,尤其涉及一种基于hadoop元数据的冷数据识别方法,以及基于hadoop元数据的冷数据识别系统。
技术介绍
目前在使用hadoop集群时,如果集群存储空间不够时,只能通知集群用户自己去识别hadoop集群上各自hdfs目录下的冷数据,然后进行删除。中国专利申请(申请号:CN201310621705.0)提供了一种基于Hadoop框架的分布式文件监控系统,涉及图像数据处理
,包括Hadoop集群和Client端,所述Hadoop集群中包括一个NameNode节点模块、一个NameNode代理模块、至少一个DataNode节点模块、一个含有配置文件和调度算法的匹配模块以及响应算法模块;所述NameNode代理模块接收Client端发来的HadoopClientProcotol接口中的函数信息,并转发该函数信息给NameNode节点模块,同时获取配置文件中配置的信息;本专利技术中的NameNode代理模块可获取所有的请求和消息,实现了对分布式文件系统的完全监控,并通过后续响应算法支持监控的同时做出处理。但是,这种方式严重依赖于集群用户的积极性,而且用户在删除数据时很难做出决策来判断哪些是冷数据,哪些数据应该删除,这就导致了让用户识别冷数据并删除数据的效果大大折扣。所以随着公司业务的发展,当集群存储的数据越来越多,存储空间越来越少时,怎么去识别集群中的冷数据,以及按怎样的策略去删除这些冷数据成为各个公司在使用hadoop集群时头疼的问题。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种基于hadoop元数据的冷数据识别方法,其可以很明确地知道hadoop集群文件系统中哪些是冷数据,根据元数据统计分析,然后推进集群用户删除冷数据,有效地识别冷数据,从而使得集群存储空间得到高效的利用。本专利技术的技术方案是:这种基于hadoop元数据的冷数据识别方法,该方法包括以下步骤:(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610944210.html" title="一种基于hadoop元数据的冷数据识别方法及系统原文来自X技术">基于hadoop元数据的冷数据识别方法及系统</a>

【技术保护点】
一种基于hadoop元数据的冷数据识别方法,其特征在于:该方法包括以下步骤:(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;(2)解析镜像文件;(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。

【技术特征摘要】
1.一种基于hadoop元数据的冷数据识别方法,其特征在于:该方法包括以下步骤:(1...

【专利技术属性】
技术研发人员:何良均张翼温宗臣冯森林李冰张书凡范卫卫赵志华
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1