一种分布式大数据处理方法技术

技术编号：15520604 阅读：215 留言：0更新日期：2017-06-04 10:07

本发明专利技术提供了一种分布式大数据处理方法，涉及数据处理技术领域。将超立方体数据模型中的节点划分为两个子超立方体，然后分别对每个子超立方体中的数据进行处理，随着规模n的变化，超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时，超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。

A distributed large data processing method

The invention provides a distributed large data processing method, which relates to the technical field of data processing. The node divides hypercube in the data model into two sub hypercube, and each sub hypercube in data processing, along with the changes of the scale of N, hypercube model of distributed algorithm's time complexity is obviously lower than the timestamp distributed algorithm and DFS minimum spanning tree algorithm time complexity. When n> and K are used, the efficiency of the hypercube model distributed algorithm is obviously higher than the efficiency of the timestamp distributed algorithm and the DFS minimum spanning tree distributed algorithm.

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式大数据处理方法
本专利技术涉及数据处理
，特别涉及一种分布式大数据处理方法。
技术介绍
大数据是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》书中，大数据处理是指不用随机分析法、统计方法，而是采用所有数据同时进行分析处理。这样大数据分析工作如果采用分布式计算架构将会比单台计算机花费时间短。它的特色是利用云存储技术、分布式数据库、分布式处理，在海量数据中挖掘出有价值的信息。从海量数据中“提炼”出有价值的信息，这对数据处理能力和网络架构而言也是巨大的挑战。目前对大数据的处理有时戳分布式算法和DFS最小生成树分布式算法两种处理方式。对于前者，对于一个全序对事件S，系统中的事件为接受消息后，取较大者作为新时戳。节点共有m个，节点的启动时间为t，则算法的消息复杂度为O(mn2)，时间复杂度为O(t+L)。在最坏情况下，每个节点顺序依次操作，总复杂度至多是：O(m*mn2)+O(t+L)。该算法的问题是不同事件可能有相同时戳(并发事件)，虽然可以选择节点地址作为时戳的低位，但是不能通过事件的时戳判定两事件之间是否是因果相关。而基于DFS生成树分布算法可以判断两个事件之间的因果关系。DFS生成树分布算法，基于DFS生成树分布算法的思想是每个节点均可自发唤醒，构造一棵以自己为根的DFS生成树。若两棵DFS树试图链接同一节点时，该节点将加入根的id较大的DFS树。对于一个具有m条边和n个节点的网络，自发启动的节点共有p个，其中id值最大者的启动时间为t...
一种分布式大数据处理方法

【技术保护点】
一种分布式大数据处理方法，其特征在于，所述方法包括：超立方体数据模型中具有n个节点，在该数据模型中随机选择一个节点作为中心元，然后将该中心元广播到其他节点，每个节点中的数据与该中心元的数据进行比较，其中数据量大于所述中心元的数据的节点组成第一子超立方体，数据量小于或等于所述中心元的数据的节点组成第二子超立方体；所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路，将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据，则节点标号的第i位为0的节点组成的i‑1维子超立方体包含的数据都大于所述中心元中的数据，节点标号的第i位为1的节点组成的i‑1维子超立方体包含剩余的数据；对互换数据后的每个子超立方体中的数据进行数据处理；对以上方法执行d次迭代，获得最终数据处理结果。

【技术特征摘要】
1.一种分布式大数据处理方法，其特征在于，所述方法包括：超立方体数据模型中具有n个节点，在该数据模型中随机选择一个节点作为中心元，然后将该中心元广播到其他节点，每个节点中的数据与该中心元的数据进行比较，其中数据量大于所述中心元的数据的节点组成第一子超立方体，数据量小于或等于所述中心元的数据的节点组成第二子超立方体；所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路，将所述第...

【专利技术属性】
技术研发人员：张全友，寇琼洁，陶战刚，钱和平，吴俊红，
申请(专利权)人：许昌学院，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人