分布式数据处理方法及装置制造方法及图纸

技术编号：12900841 阅读：45 留言：0更新日期：2016-02-24 11:09

本发明专利技术实施例提供一种分布式数据处理方法及装置，通过针对输入数据流的处理需求设定的数据封装策略，根据该数据封装策略将输入数据流封装为数据单元，在后续数据处理过程中均以封装的数据单元为单位进行数据分发和处理。本发明专利技术实施例提供的分布式数据处理方法及装置，通过针对不同的数据处理需求预设合适的封装策略，对数据流进行封装和处理，对于批量数据处理，可以实现较高的数据吞吐量；对于流式数据处理，可以实现较低的数据延时。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理技术，尤其涉及一种分布式数据处理方法及装置。
技术介绍
近年来人们对于大数据的概念提及越来越多，大数据(big data)，或称巨量资料、海量资料，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对大数据的有效处理，现在工业界和学术界中提出了一些新的并行数据处理技术与系统，按照数据的输入类型不同，我们可以将其分为批量数据处理和流式数据处理。批量数据处理主要是针对静态数据集合，实现了大规模静态数据的高吞吐处理，以吞吐量大为显著特征，其典型的技术是MapReduce。流式数据处理主要针对持续产生的数据流的快速处理，分别实现不同数据结构、不同计算模式和不同响应时间的数据处理。与此相对应，近来工业界和学术界有把批量数据处理和流式数据处理进行综合的动力和趋势。然而，随着大数据的深入应用，这种多系统并存的状况导致应用开发和运行管理的麻烦，例如开发人员在多个编程框架上编写应用，运维管理人员维护多个计算系统及其上的应用，抬高了大数据处理的资源成本、时间成本和人员成本。因此融合批量数据处理和流式数据处理的大数据处理成为一个亟待解决的问题。
技术实现思路
本专利技术提供一种分布式数据处理方法及装置，其目的就在于提供一种适用多种数据处理要求的数据处理模型，通过针对不同的数据处理需求预设合适的封装策略，对数据流进行封装和处理，可以满足不同的数据处理需求。本专利技术实施例提供的分布式数据处理方法，可以应用于分布式数据处理系统，该数据处理系统包括至少一个输入适配和多个处理节点，其中输入适配与处理节点之间通过有向边连接。该方法包...

【技术保护点】
一种分布式数据处理方法，所述方法应用于分布式数据处理系统，所述数据处理系统包括至少一个输入适配和多个处理节点，所述输入适配与所述处理节点之间通过有向边连接，其特征在于，所述方法包括：输入适配接收输入数据流；所述输入适配根据所述输入数据流的处理需求设定数据封装策略；所述输入适配根据所述数据封装策略将所述输入数据流封装为数据单元；所述输入适配将所述数据单元发送至处理节点进行处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：林学练，申阳，王家兴，马帅，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人