数据并行处理方法、装置及系统制造方法及图纸

技术编号：5132602 阅读：222 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及数据并行处理方法、装置及系统，所述方法包括：实时检测数据采集服务器中需要处理的数据；对检测到的数据进行分区和／或聚合处理，使其形成大小为预定值的数据分区；建立与各数据分区对应的描述信息，并将所述描述信息依次存入数据分区队列中；收到Ｈａｄｏｏｐ系统中处理节点的Ｍａｐ任务的请求后，从所述数据分区队列中读取一个描述信息，并根据所述描述信息获取对应的数据分区中的数据；将获取的数据传送到Ｍａｐ任务的输入源。利用本发明专利技术，可以将数据从采集服务器上直接传送到ＭａｐＲｅｄｕｃｅ节点上进行处理，从而节省了存储空间，简化了处理流程，提高了数据处理效率及数据处理的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理技术，具体涉及一种数据并行处理方法、装置及系统。
技术介绍
Hadoop是基于shared-nothing架构的海量数据存储和计算的分布式系统，它由若干个成员组成，主要包括HDFS (Hadoop Distributed File System，分布式文件系统)、 MapReduce (并行计算框架)，HBase (Google BigTable的开源实现)等。其中，MapReduce作为一套开放式的并行计算框架能够与目前流行的各种分布式产品结合实现灵活的并行计算和分布式计算功能，可以将HDFS、HBase、Cassandra(—个混合型的非关系的数据库)等平台的数据作为MapReduce的输入源进行并行加工处理，并将处理后的数据输出到HDFS、 HBase, Cassandra 等输出源中。MapReduce的计算过程简而言之，就是将大数据集分解为成百上千的小数据集，每个或若干个数据集分别由集群中的一个节点(通常是一台普通的计算机)进行处理并生成中间结果，然后这些中间结果又由大量的节点进行合并，形成最终结果。MapReduce计算模型的原理是利用一个输入key/value对来产生一个或一批输出的key/value对，其核心是利用两个函数即Map和Reduce来表达这个计算，而函数Map 和Reduce由用户来实现。在MapReduce框架中，每一次计算请求被称为作业。在分布式计算MapReduce框架中，分两步完成这个作业。首先是将该作业拆分成若干个Map任务，分配到不同的机器上去执行，每一个Map任务将输入文...

【技术保护点】
一种数据并行处理方法，其特征在于，包括：实时检测数据采集服务器中需要处理的数据；对检测到的数据进行分区和／或聚合处理，使其形成大小为预定值的数据分区；建立与各数据分区对应的描述信息，并将所述描述信息依次存入数据分区队列中；收到Ｈａｄｏｏｐ系统中处理节点的Ｍａｐ任务的请求后，从所述数据分区队列中读取一个描述信息，并根据所述描述信息获取对应的数据分区中的数据；将获取的数据传送到Ｍａｐ任务的输入源。

【技术特征摘要】
一种数据并行处理方法，其特征在于，包括实时检测数据采集服务器中需要处理的数据；对检测到的数据进行分区和/或聚合处理，使其形成大小为预定值的数据分区；建立与各数据分区对应的描述信息，并将所述描述信息依次存入数据分区队列中；收到Hadoop系统中处理节点的Map任务的请求后，从所述数据分区队列中读取一个描述信息，并根据所述描述信息获取对应的数据分区中的数据；将获取的数据传送到Map任务的输入源。2.根据权利要求1所述的方法，其特征在于，所述方法还包括收到Hadoop系统中处理节点的Reduce任务的请求后，获取Reduce任务的输出源输出的数据；将输出的数据写到文件或者应用程序中。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括如果所述数据分区是经过分区处理形成的，则在该数据分区以及与该数据分区同属于一个文件的其他数据分区都已被读取后，删除和/或备份所述文件；如果所述数据分区是经过聚合处理形成的，则在该数据分区被读取后，删除和/或备份该数据分区中的数据所属的文件。4.根据权利要求2所述的方法，其特征在于，所述方法还包括利用一个或多个数据流处理线程处理所述Map任务的请求信号和Reduce任务的请求信号。5.根据权利要求4所述的方法，其特征在于，所述方法还包括周期性获取数据分区队列的长度；如果所述长度达到或超过设定的第一阈值，则增加一个数据流处理线程，并暂缓检测需要处理的数据；如果所述长度达到或超过设定的第二阈值，则删除增加的数据流处理线程，并恢复检测需要处理的数据。6.根据权利要求4所述的方法，其特征在于，所述需要处理的数据包括以下任意一种或多种磁盘上存储的文件中的数据，实时数据、应用程序输出的数据。7.根据权利要求6所述的方法，其特征在于，所述方法还包括 Hadoop系统中管理节点获取数据流处理线程池中空闲的线程数；根据所述空闲的线程数为一个或多个所述处理节点分配任务，并指定该任务需要侦听的IP地址和端口号；Hadoop系统中处理节点根据所述IP地址和端口号获取实时数据或者应用程序输出的数据。8.一种数据并行处理装置，其特征在于，包括检测单元，用于实时检测数据采集服务器中需要处理的数据；数据分区生成单元，用于对所述检测单元检测到的数据进行分区和/或聚合处理，使其形成大小为预定值的数据分区；描述信息建立单元，用于建立与各数据分区对应的描述信息，并将所述描述信息依次存入数据分区队列中；2请求接收单元，用于接收Hadoop系统中处理节点的Map任务的请求；数据流处理器，用于在所述请求接收单元收到Hadoop系统中处理节点的Map任务的请求后，从所述数据分区队列中读取一个描述信息，并根据所述描述信息获取对应的数据分区中的数据；数据传送单元，用于将所述数据流处理器获取的数据传送到Map任务的输入源。9.根据权利要求8所述的装置，其特征在于，所述请求接收单元...

【专利技术属性】
技术研发人员：温文全，喻先兵，
申请(专利权)人：广州从兴电子开发有限公司，
类型：发明
国别省市：81[中国|广州]

全部详细技术资料下载我是这个专利的主人