The present invention proposes a new optimization method of graph data processing engine, which is characterized by local iteration and global communication. The method first calculates on the same computing node, and then stops local iteration until all graph nodes on the computing node update their data. At the same time, edge graph nodes carry out calculation on the same computing node. The message is cached and merged, and the message sent between computing nodes is transmitted in batches after the local iteration stops. The edge graph node is a graph node spanning two or more computing nodes.
【技术实现步骤摘要】
一种面向图数据处理引擎的优化方法
本专利技术涉及一种面向图数据处理引擎的优化方法,主要涉及到面向分布式图数据处理引擎的优化与性能提升、降低处理时间、减少通信开销的方法。
技术介绍
图(Graph)是公认的世界上最复杂的数据结构。在数学和计算科学领域,图论是专门研究图的一门科学,其也可以认为是研究事物及事物间关系的一门科学。近年来,图算法及图计算引擎的研究取得了较大的进步,并在应用领域取得了较好的进展。以电网为例,电网可以认为是最为复杂的人造网络之一,学术界将电网看做一种特定类型的图,并以其为研究对象,探索了电网的图属性和各种性质,并研发了面向电网的图计算算法和引擎,解决实际应用中存在的各种问题。然而,随着图规模的增大,图算法运行时间也不断增加,且由于图算法的复杂度通常较高,导致难以在单机上进行计算。例如,庞大的图数据结构超出了内存范围,虽然可通过外存进行中转和缓存,但也使得计算时间变得不可接受。在这一背景下,分布式图计算引擎应用而生,通过多台计算节点并行完成同一计算任务,从而大大节省了任务执行时间。虽然分布式图计算引擎使得原本在单机上无法完成的图计算任务在分布式环境中得以运行,但仍然面临着分布式节点间通信开销过大以及多节点计算并行度较低的问题。例如,知名图计算引擎Graphlab在运行Pagerank算法时的并行加速比仅为0.45。这意味着该算法在Graphlab上并未能充分利用多节点的并行处理能力。其本质原因在于图计算任务难以在多计算节点实现横向扩展,以及图节点间同步等待以及计算节点间的通信开销过大问题。
技术实现思路
针对以上问题,本专利技术提出了一种面向 ...
【技术保护点】
1.一种新的图数据处理引擎优化方法,其特征在于,采用本地迭代,全局通信的处理方式,所述处理方式首先在同一计算节点上开展计算,直到该计算节点上的所有图节点的数据都完成更新则停止局部迭代;在同一计算节点上开展计算的同时,边缘图节点缓存并合并消息,待局部迭代停止后批量传输计算节点间发送的消息,所述边缘图节点为跨两个或多个计算节点的图节点。
【技术特征摘要】
1.一种新的图数据处理引擎优化方法,其特征在于,采用本地迭代,全局通信的处理方式,所述处理方式首先在同一计算节点上开展计算,直到该计算节点上的所有图节点的数据都完成更新则停止局部迭代;在同一计算节点上开展计算的同时,边缘图节点缓存并合并消息,待局部迭代停止后批量传输计算节点间发送的消息,所述边缘图节点为跨两个或多个计算节点的图节点。2.如权利要求1所述的方法,其特征在于,在所述本地迭代的具体步骤为:步骤1,计算节点内的图节点开始执行计算任务,计算任务完成后会生成中间计算结果,图节点会根据预设的消息触发条件将中间计算结果发送给相邻图节点;步骤2,图节点收到来自相邻图节点的消息后,根据自身的计算任务和来自相邻图节点的消息输入,进...
【专利技术属性】
技术研发人员:王锋华,钱仲文,夏洪涛,成敬周,陈婷,王政,张旭东,张建松,陈俊,黄敏,谭程文,琚小明,李博,
申请(专利权)人:国网浙江省电力有限公司,浙江华云信息科技有限公司,国网浙江仙居县供电有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。