一种数据加载方法、系统和数据处理方法、系统技术方案

技术编号：6962190 阅读：163 留言：0更新日期：2012-04-11 18:40

本发明专利技术实施例公开了一种数据加载方法、系统和数据处理方法、系统。该方法包括：在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点，在该数据节点上为该原始数据划分文件带区；该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上；所述元数据信息包括原始数据的名称和文件带区信息。应用本发明专利技术能够节省网络传输资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及并行分布式容错文件系统
，尤其涉及一种数据加载方法、系统和数据处理方法、系统。
技术介绍
目前，网络文件系统得到了广泛应用，其工作原理是将服务器上的逻辑卷开放给远程客户端，远程客户端可以像操作本地硬盘一样操作该服务器上的文件。分布式文件系统是一种典型的网络文件系统，分布式文件系统允许其他多个系统通过网络以透明的方式对分布在网络上的文件进行访问。并行分布式容错文件系统是一种支持文件带区划分、数据复制、数据一致性检查和并行访问的分布式文件系统。并行分布式容错文件系统将文件划分出多个文件带区，通过数据复制和数据一致性检查，使得各个文件带区存储的数据一致，从而达到容错的效果。同时，由于多个文件带区中存储相同的数据，因此可以并行访问多个文件带区。目前互联网上应用的大规模文件系统，很多都采用并行分布式容错文件系统的架构，例如Hadoop分布式文件系统(HDFS)。图1是现有技术中的并行分布式容错文件系统的结构示意图。图1所示结构是以HDFS为例，但是其仍然适用于其他并行分布式容错文件系统。图1中服务器侧包括名称节点(NameNode)模块和数据节点(DataNode)模块。其中一个HDFS系统仅有一个NameNode，用于HDFS系统中数据存储信息的元数据管理、数据完整性管理和访问安全性管理等，数据存储信息的元数据记载了文件带区名称以及文件带区的具体存储位置等。一个HDFS系统通常有多个DataNode，用于存储文件带区的多个副本。图1中，客户端(Client)用于文件系统客户访问分布式文件系统，即通过与服务器侧的NameNode模块和Data...

【技术保护点】
１．一种数据加载方法，应用于并行分布式容错文件系统，其特征在于，该方法包括：在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点，在该数据节点上为该原始数据划分文件带区；该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上；所述元数据信息包括原始数据的名称和文件带区信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：蔡斌，宫振飞，郭玮，刘奕慧，史晓峰，张文郁，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：94

全部详细技术资料下载我是这个专利的主人