一种数据加载方法、系统和数据处理方法、系统技术方案

技术编号:6962190 阅读:163 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种数据加载方法、系统和数据处理方法、系统。该方法包括:在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点,在该数据节点上为该原始数据划分文件带区;该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上;所述元数据信息包括原始数据的名称和文件带区信息。应用本发明专利技术能够节省网络传输资源。

【技术实现步骤摘要】

本专利技术涉及并行分布式容错文件系统
,尤其涉及一种数据加载方法、系统和数据处理方法、系统
技术介绍
目前,网络文件系统得到了广泛应用,其工作原理是将服务器上的逻辑卷开放给远程客户端,远程客户端可以像操作本地硬盘一样操作该服务器上的文件。分布式文件系统是一种典型的网络文件系统,分布式文件系统允许其他多个系统通过网络以透明的方式对分布在网络上的文件进行访问。并行分布式容错文件系统是一种支持文件带区划分、数据复制、数据一致性检查和并行访问的分布式文件系统。并行分布式容错文件系统将文件划分出多个文件带区,通过数据复制和数据一致性检查,使得各个文件带区存储的数据一致,从而达到容错的效果。 同时,由于多个文件带区中存储相同的数据,因此可以并行访问多个文件带区。目前互联网上应用的大规模文件系统,很多都采用并行分布式容错文件系统的架构,例如Hadoop分布式文件系统(HDFS)。图1是现有技术中的并行分布式容错文件系统的结构示意图。图1所示结构是以HDFS为例,但是其仍然适用于其他并行分布式容错文件系统。图1中服务器侧包括名称节点(NameNode)模块和数据节点(DataNode)模块。其中一个HDFS系统仅有一个NameNode,用于HDFS系统中数据存储信息的元数据管理、数据完整性管理和访问安全性管理等,数据存储信息的元数据记载了文件带区名称以及文件带区的具体存储位置等。一个HDFS系统通常有多个DataNode,用于存储文件带区的多个副本。图1中,客户端(Client)用于文件系统客户访问分布式文件系统,即通过与服务器侧的NameNode模块和DataNode模块进行通信,获取客户需要的数据信息。具体地,客户端与NameNode模块进行通信,获取NameNode模块上存储的文件带区的存储位置信息,客户端根据该存储位置信息,到相应的DataNode模块上获取所述文件带区中的数据。例如,在图1中,客户端要读取的数据在文件带区1中,那么,客户端通过NameNode查找文件带区1的存储位置,查找结果是文件带区1存储在DataNodel中,则客户端通过访问DataNodel读取文件带区1。再例如,在图1中,客户端需要向HDFS系统中写数据,那么客户端首先通过访问NameNode得到数据的存储位置,然后向相应位置上的 DataNode发起写请求,将相应的数据写到相应的DataNode上,其中,所写的数据可以同时写到多个DataNode上,以保证必要的文件带区副本数,这样,即便其中一个DataNode崩溃, 还可以从其他正常的DataNode上获取数据,或者将该正常的DataNode上的数据复制到其他DataNode上,以保证所述文件带区副本数。图2是目前并行分布式容错文件系统加载数据的方法流程图。如图2所示,该方法包括步骤201,将需要加载的原始数据上传到预先布置的DataNode上。本步骤中,对于并行分布式容错文件系统中所有要处理的原始数据,都需要通过客户端上传到DataNode上,其中的DataNode通常是在并行分布式容错文件系统中用于存储数据并进行相应格式转换等处理的设备。步骤202,DataNode将上传的原始数据处理成预定格式。本步骤中,DataNode将数据根据文件带区格式进行划分,创建与各个文件带区相对应的校验文件。步骤203,更新NameNode上相应的元数据信息。在步骤202对新上传到DataNode上的原始数据处理完毕后,步骤203将处理完毕的数据信息,例如文件带区数、校验文件存储位置等作为元数据信息上传到NameNode上, 至此完成数据加载过程。由图2可知,并行分布式容错文件系统中所有要处理的数据,都需要上传到预先布置的DataNode上,当客户端需要获取数据,或者当需要对数据进行分析处理时,都需要到相应的DataNode上获取数据。无论是将数据加载到DataNode上,还是在需要对数据进行分析处理时从 DataNode上获取数据,都需要占用大量的网络传输资源。例如,当计算资源本地有需要处理的数据时,也需要先通过图2将该数据加载到DataNode上,然后再从该DataNode上获取数据来进行相应的处理。计算资源的调度是绿色计算(Green Computing)中的重要技术,其根据系统的状态信息和预测信息,将互相独立的应用需要的计算资源,映射到适当的物理资源上,并在适当的时刻运行。在采用计算资源调度技术的系统中,常常会出现某些计算资源所在的物理设备上存储有需要利用该计算资源进行处理的原始数据,则按照现有技术,需要先根据图2加载原始数据的方法,将该计算资源所在物理设备上的原始数据加载到DataNode上,然后该计算资源所在物理设备再从DataNode上获取相应的数据,利用所述计算资源对获取的数据进行分析处理,浪费网络传输资源,特别是目前互联网系统每天产生的数据已经达到了 T 级别,在各个系统之间传输数据将占用大量的网络资源。例如,在一个典型的互联网公司,通常业务处理系统的忙时集中在早上8点到晚上12点,而相应的业务分析系统的忙时出现在晚上12点到早上6点。通过计算资源的调度,可以在晚上12点到早上6点,将业务处理系统的一部分计算资源转移到业务分析系统; 而在早上8点到晚上12点,可以将业务分析系统的一部分计算资源转移到业务处理系统, 从而保证计算资源的利用率。业务分析系统需要分析的数据,例如访问日志数据、系统日志数据等,都是由业务处理系统产生的,按照现有技术,需要将业务处理系统产生的数据加载到业务分析系统的 DataNode上。然而,当采用计算资源调度技术,将业务系统的部分计算资源转移到业务分析系统中用于业务分析处理时,可能会出现该部分计算资源上的原始数据已经按照现有技术加载到了业务分析系统的DataNode上,因此利用该部分计算资源进行业务分析处理时,还需要从业务分析系统的DataNode上获取相应的数据,而这部分数据本来就是由业务系统产生并存储在该部分计算资源所在物理设备上的,可见,现有加载数据的方法将浪费大量的网络传输资源。
技术实现思路
有鉴于此,本专利技术提供了一种数据加载方法、系统和数据处理方法、系统,以节省网络传输资源。本专利技术的技术方案具体是这样实现的一种数据加载方法,应用于并行分布式容错文件系统,该方法包括在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点,在该数据节点上为该原始数据划分文件带区;该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上;所述元数据信息包括原始数据的名称和文件带区信息。一种数据加载系统,该系统包括原始数据所在的物理设备和并行分布式容错文件系统中的名称节点;原始数据所在的物理设备,在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,将该原始数据在该数据节点上的元数据信息加载到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息; 所述名称节点,用于存储元数据信息。一种数据处理方法,该方法包括在当前数据处理系统中的计算资源所在物理设备上有需要处理的原始数据时,在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数本文档来自技高网
...

【技术保护点】
1.一种数据加载方法,应用于并行分布式容错文件系统,其特征在于,该方法包括:在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点,在该数据节点上为该原始数据划分文件带区;该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上;所述元数据信息包括原始数据的名称和文件带区信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡斌宫振飞郭玮刘奕慧史晓峰张文郁
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1