HDFS内存中数据的识别方法及相关设备技术

技术编号:31238136 阅读:31 留言:0更新日期:2021-12-08 10:24
本申请涉及一种HDFS内存中数据的识别方法及相关设备,应用于数据处理技术领域,其中,方法包括:获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;获取名字节点的内存运行的当前时间;计算访问时间与当前时间的时间差值;确定时间差值大于第一预设值的访问时间对应的元数据为冷数据。以解决现有技术中,由于NN的内存往往容量有限,随着HDFS中目录和文件的增加,NN的内存也会被消耗的越来越多,导致NN的可用内存容量变小,从而使系统的运行速率变慢的问题。速率变慢的问题。速率变慢的问题。

【技术实现步骤摘要】
HDFS内存中数据的识别方法及相关设备


[0001]本申请涉及数据处理
,尤其涉及一种HDFS内存中数据的识别方法及相关设备。

技术介绍

[0002]Hadoop是由Apache基金主导的集群分布式项目,主要包含两个核心模块:Map/Reduce编程模式和HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)。其中,HDFS主要通过文件数据块的多备份机制、心跳机制等来实现数据的高可用性、集群扩展性和数据的高速读写等特性。由于HDFS的上述特性,目前,大多数企业选择以HDFS为基础构建云存储。
[0003]HDFS集群有两类节点,并以管理者

工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。NameNode(以下简称NN)主要负责管理HDFS文件系统,DataNode(以下简称DN)主要是用来存储数据文件。
[0004]相关技术中,常常使用HDFS作为数据存储系统,同时这些数据的元数据信息会在NN内存中进行索引,NN的内存中会记本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种HDFS内存中数据的识别方法,其特征在于,包括:获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;获取所述名字节点的内存运行的当前时间;计算所述访问时间与所述当前时间的时间差值;确定所述时间差值大于第一预设值的所述访问时间对应的元数据为冷数据。2.根据权利要求1所述的HDFS内存中数据的识别方法,其特征在于,所述确定所述时间差值大于第一预设值的元数据为冷数据之后,还包括:获取所述冷数据的数据要素,所述数据要素中包括所述时间差值;确定所述数据要素对应的所述冷数据的目标处理单元;将所述冷数据发送至所述目标处理单元,以通过所述目标处理单元对所述冷数据进行处理。3.根据权利要求2所述的HDFS内存中数据的识别方法,其特征在于,所述数据要素中还包括再次访问倾向度,所述再次访问倾向度指示所述冷数据被再次访问的可能性;所述确定所述数据要素对应的所述冷数据的目标处理单元,包括:若所述时间差值大于第二预设值,或,所述再次访问倾向度小于预设倾向度,确定所述目标处理单元为回收站,所述第二预设值大于所述第一预设值。4.根据权利要求1

3任一项所述的HDFS内存中数据的识别方法,其特征在于,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:获取所述名字节点的内存中存入时间大于预设时间的每个元数据各自的访问时间。5.根据权利要求1

3任一项所述的HDFS内存中数据的识别方法,其特征在于,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:获取所述名字节点的内存中未携带特定标识的每个元数据各自的访问时间,所述特定标识为指示所述元数据满足预设条件的标识。6.根据权利要求5所述的HDFS内存中数据的识别方法,其特征在于,所述确定所述时间差值大于第一预设值的元数据为冷数据,包括:记录每次数据的识别过程中,携带所述特定标识的元数据的访问时间与当...

【专利技术属性】
技术研发人员:梁海昆
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1