当前位置: 首页 > 专利查询>许昌学院专利>正文

一种分布式大数据处理方法技术

技术编号:15520604 阅读:215 留言:0更新日期:2017-06-04 10:07
本发明专利技术提供了一种分布式大数据处理方法,涉及数据处理技术领域。将超立方体数据模型中的节点划分为两个子超立方体,然后分别对每个子超立方体中的数据进行处理,随着规模n的变化,超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时,超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。

A distributed large data processing method

The invention provides a distributed large data processing method, which relates to the technical field of data processing. The node divides hypercube in the data model into two sub hypercube, and each sub hypercube in data processing, along with the changes of the scale of N, hypercube model of distributed algorithm's time complexity is obviously lower than the timestamp distributed algorithm and DFS minimum spanning tree algorithm time complexity. When n> and K are used, the efficiency of the hypercube model distributed algorithm is obviously higher than the efficiency of the timestamp distributed algorithm and the DFS minimum spanning tree distributed algorithm.

【技术实现步骤摘要】
一种分布式大数据处理方法
本专利技术涉及数据处理
,特别涉及一种分布式大数据处理方法。
技术介绍
大数据是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》书中,大数据处理是指不用随机分析法、统计方法,而是采用所有数据同时进行分析处理。这样大数据分析工作如果采用分布式计算架构将会比单台计算机花费时间短。它的特色是利用云存储技术、分布式数据库、分布式处理,在海量数据中挖掘出有价值的信息。从海量数据中“提炼”出有价值的信息,这对数据处理能力和网络架构而言也是巨大的挑战。目前对大数据的处理有时戳分布式算法和DFS最小生成树分布式算法两种处理方式。对于前者,对于一个全序对事件S,系统中的事件为接受消息后,取较大者作为新时戳。节点共有m个,节点的启动时间为t,则算法的消息复杂度为O(mn2),时间复杂度为O(t+L)。在最坏情况下,每个节点顺序依次操作,总复杂度至多是:O(m*mn2)+O(t+L)。该算法的问题是不同事件可能有相同时戳(并发事件),虽然可以选择节点地址作为时戳的低位,但是不能通过事件的时戳判定两事件之间是否是因果相关。而基于DFS生成树分布算法可以判断两个事件之间的因果关系。DFS生成树分布算法,基于DFS生成树分布算法的思想是每个节点均可自发唤醒,构造一棵以自己为根的DFS生成树。若两棵DFS树试图链接同一节点时,该节点将加入根的id较大的DFS树。对于一个具有m条边和n个节点的网络,自发启动的节点共有p个,其中id值最大者的启动时间为t,则算法的消息复杂度为O(pn2),时间复杂度为O(t+m)。最坏情况下,每个节点均试图以自己为根构造一棵DFS树,总复杂度至多是O(pn2)+O(m*n)。以上两种梳理方法均存在数据处理效率不高的问题。
技术实现思路
本专利技术实施例提供了一种分布式大数据处理方法,用以解决现有技术中存在的问题。一种分布式大数据处理方法,所述方法包括:超立方体数据模型中具有n个节点,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二子超立方体;所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据,则节点标号的第i位为0的节点组成的i-1维子超立方体包含的数据都大于所述中心元中的数据,节点标号的第i位为1的节点组成的i-1维子超立方体包含剩余的数据;对每个子超立方体中的数据进行数据处理;对以上方法执行d次迭代,获得最终数据处理结果。优选地,所述数据处理为串行快速排序或数据查询。本专利技术的有益效果在于:随着规模n的变化,超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时,超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种分布式大数据处理方法的步骤流程图;图2为超立方体的立体结构图;图3为图2中超立方体的平面网状结构图;图4为时间复杂度的变化趋势示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在介绍本专利技术的技术方案前,首先对使用到的技术术语进行解释:节点:节点是指互联的处理服务器,连接后形成一个超立体结构,根据问题的大小该超立体结构可以扩展至不同维度。数据:数据是指需要分布式处理的数据,可能是大批量需要排序、查找的数据。数组:由于每个节点都有一个唯一的标号,这些标号形成一个数组。参照图1,本专利技术实施例提供了一种分布式大数据处理方法,该方法包括:步骤100,对于一个具有m条边和n个节点的超立方体数据模型,如图2所示,其中自发启动的节点有p个,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二超立方体,这样就把一个超立方体分解成了大小两个子超立方体;步骤110,所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据,则节点标号的第i位为0的节点组成的i-1维子超立方体包含的数据都大于所述中心元中的数据,节点标号的第i位为1的节点组成的i-1维子超立方体包含剩余的数据,每个节点的节点标号如图3所示;步骤120,对每个子超立方体中的数据进行数据处理,在本实施例中,所述数据处理包括串行快速排序或数据查询等;步骤130,对以上步骤100~120执行d次迭代,即前一次的处理结果作为后一次处理的数据基础,获得最终数据处理结果。在以上处理方法中,如果第一次选择的中心元恰好是最小或最大元素,那么,在第一次分解后,所有的元素都将集中到一个i-1维子超立方体中,而另一个i-1维子超立方体为空。在后续的工作中,最多只有一半节点继续工作,而另一半则空闲。理想情况是每次分解处理都有大小为n/p的子数组。假设,在d次分解的每一次分解中,节点P1中存储的子数组的大小都增加k倍,其中1≤k≤2。于是,d次分解中所花费的总时间为当k>1,总的时间为O((kd-1)n/p)。由于p=2d,上式可以化简为O((plog2k-1)n/p)。当k=2,则P1分解所用的时间为O(n-n/p),d次分解后,P1上的子数组大小为2dn/p。当k=1.1,则分解所用的时间为O((p0.138-1)n/p),本地排序的子数组大小为n/p0.138。当k=1,则分解所用的时间为O((nlog2p)/p),本地排序的子数组大小为n/p,为理想情况。由此可见,k越大算法的性能越差,d次分解总的时间变化趋势如图4所示。随着规模n的变化,超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时,超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。超立方体模型分布式算法的加速比在某个点m之前,加速比明显低于时戳分布式算法和DFS最小生成树分布式算法的加速比,但是当n大于k时,加速比低于其余两种算法。本领域内的技术人员应明白,本专利技术的实施例可提供为方法、系统、或计算机程序产品。因此,本专利技术可采用完全硬件实施例、完本文档来自技高网
...
一种分布式大数据处理方法

【技术保护点】
一种分布式大数据处理方法,其特征在于,所述方法包括:超立方体数据模型中具有n个节点,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二子超立方体;所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据,则节点标号的第i位为0的节点组成的i‑1维子超立方体包含的数据都大于所述中心元中的数据,节点标号的第i位为1的节点组成的i‑1维子超立方体包含剩余的数据;对互换数据后的每个子超立方体中的数据进行数据处理;对以上方法执行d次迭代,获得最终数据处理结果。

【技术特征摘要】
1.一种分布式大数据处理方法,其特征在于,所述方法包括:超立方体数据模型中具有n个节点,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二子超立方体;所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第...

【专利技术属性】
技术研发人员:张全友寇琼洁陶战刚钱和平吴俊红
申请(专利权)人:许昌学院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1