一种基于Hadoop的数据处理方法及其系统技术方案

技术编号：10075470 阅读：123 留言：0更新日期：2014-05-24 05:01

本发明专利技术公开了一种基于Hadoop的数据处理方法及其系统，用于数据服务器和MAP程序所在的集群数据服务器之间进行数据交互,包括：步骤S1、当数据服务器收到集群数据服务器的数据请求时，从所述数据请求中提取请求的需求字段同时将源数据转化为KEY/VALUE格式；步骤S2、所述数据服务器从转换为KEY/VALUE格式的数据中提取所述需求字段对应的数据，将所述需求字段对应的数据发送给所述集群数据服务器；步骤S3、当所述集群数据服务器接收到所述需求字段对应的数据时，根据预设的配置信息对所述需求字段对应的数据进行适配识别并进行下一步运算。本发明专利技术通过实现对数据进行筛选后传输，能减少传输数据时的网络带宽，能提高程序执行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，尤其涉及一种基于Hadoop的数据处理方法及其系统。
技术介绍
Hadoop是一种可靠、高效、可伸缩的能够对大量数据进行分布式处理的软件框架，是基于shared-nothing架构的海量数据存储和计算的分布式系统，它由若干成员组成，主要包括：HDFS(Hadoop Distributed File System,分布式文件系统)、MAPREDUCE(Hadoop并行计算的框架，包括MAP和REDUCE程序)，HBase(Google BigTable的开源实现)等。其中，MAPREDUCE作为一套开放式的并行计算框架能够与目前流行的各种分布式产品结合实现灵活的并行计算和分布式计算功能，可以将HDFS、HBase、Cassabdra(一个混合型的非关系的数据库)等平台的数据作为MAPREDUCE的输入源进行并行加工处理，并将处理后的数据输出到HDFS、HBase、Cassabdra等输出源中。MAPREDUCE的计算过程简而言之，就是将大数据集分解为成百上千的小数据集，每个或若干个数据集分别由集群中的一个节点（通常是一台普通的计算机）进行处理并生成中间结果，然而这些中间结果又由大量的节点进行合并，形成最终结果。其中，MAP接受一组数据并将其转化为一个键值对；REDUCE接受MAP输出的数据，然后根据他们的键进行相应的运算并输出结果。MAPREDUCE计算模型的原理是：利用一个输入KE...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop的数据处理方法，用于数据服务器和MAP程序所在的
集群数据服务器之间进行数据交互,其特征在于，包括：
步骤S1、当数据服务器收到集群数据服务器的数据请求时，从所述数据请
求中提取请求的需求字段同时将源数据转化为KEY/VALUE格式；
步骤S2、所述数据服务器从转换为KEY/VALUE格式的数据中提取所述需求
字段对应的数据，将所述需求字段对应的数据发送给所述集群数据服务器；
步骤S3、当所述集群数据服务器接收到所述需求字段对应的数据时，根据
预设的配置信息对所述需求字段对应的数据进行适配识别并进行下一步运算。
2.如权利要求1所述的基于Hadoop的数据处理方法，其特征在于，步骤
S1中所述将所述源数据转化为KEY/VALUE格式具体为：
当所述源数据为列结构的数据时，将所述源数据转化为KEY/VALUE格式；
当所述源数据不为列结构的数据时，先将所述源数据格式化为列结构的数据，
再将所述列结构的数据转化为KEY/VALUE格式。
3.如权利要求2所述的基于Hadoop的数据处理方法，其特征在于，所述
将数据转化为KEY/VALUE格式具体为通过MAP/REDUCE将数据转化为KEY/VALUE
格式。
4.如权利要求3所述的基于Hadoop的数据处理方法，其特征在于，所述
源数据包括磁盘上存储的文件数据、磁盘上存储的XML格式的数据和/或数据库
中存储的二维表数据。
5.一种基于Hadoop的数据处理系统，用于数据服务器和MAP程序所在的
集群数据服务器之间进行数据交互，其特征在于，所述数据服务器包括数据格
式化模块和数据过滤模块，...

【专利技术属性】
技术研发人员：薛洪贺，罗峰，黄苏支，李娜，
申请(专利权)人：北京亿赞普网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人