分布式图计算系统数据切分方法和系统技术方案

技术编号:10914109 阅读:360 留言:0更新日期:2015-01-14 20:13
本发明专利技术提供一种分布式图计算系统数据切分方法和系统,该方法包括:确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值;获得各第一相邻节点的标签的出现次数,并确定是否存在出现次数相同的至少两个标签;若存在,则确定与至少两个标签分别对应的各第二相邻节点,并根据所述数据节点与各第二相邻节点间的相似性度量值,确定所述数据节点的标签;将具有同一标签的数据节点划分到同一社区,将属于同一社区的数据节点存储在同一处理主机中。充分考虑了数据节点间的相似性特征以及基于标签实现了数据节点的社区划分,节省了运算开销,而且关系密切的数据节点被分配到同一处理主机中,减少了在不同处理主机间的通信开销。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种分布式图计算系统数据切分方法和系统,该方法包括:确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值;获得各第一相邻节点的标签的出现次数,并确定是否存在出现次数相同的至少两个标签;若存在,则确定与至少两个标签分别对应的各第二相邻节点,并根据所述数据节点与各第二相邻节点间的相似性度量值,确定所述数据节点的标签;将具有同一标签的数据节点划分到同一社区,将属于同一社区的数据节点存储在同一处理主机中。充分考虑了数据节点间的相似性特征以及基于标签实现了数据节点的社区划分,节省了运算开销,而且关系密切的数据节点被分配到同一处理主机中,减少了在不同处理主机间的通信开销。【专利说明】分布式图计算系统数据切分方法和系统
本专利技术属于数据处理领域,尤其是涉及一种分布式图计算系统数据切分方法和系统。
技术介绍
近年来,以互联网、高能物理、计算生物为代表的众多领域产生的海量数据对数据处理系统提出了更高的要求。在这些海量数据中,由节点和边组成的图结构数据作为一种重要的数据结构,可以有效表示很多不同领域的数据关系,例如,社交网络数据可以表现为一种图结构数据,其中节点代表用户,边代表用户之间的关系,例如两个用户相互关注则表明两个对应节点之间有一条边。同样,英特网的网页数据也可以表现为一种图结构数据,节点代表网页,边代表网页之间的关系,例如网页A上有一个指向网页B的超链接,则对应的节点A和节点B之间有一条边。 随着数据比如图结构数据的数据量越来越大,受限于有限的运算和存储能力,单机已经不能满足对大规模图结构数据的高效处理,因而作为大数据处理的有效工具,分布式数据处理设备提供了一个处理海量图结构数据的平台。为了实现数据的分布式存储,分布式数据处理设备一般会采用数据切分。数据切分,简单来说,就是指通过某种特定的条件,将海量数据中的数据分散存放到多个处理主机上,以达到分散单台处理主机负载的效果O 但是,当前图数据处理设备存储数据的模式为:对图数据中的每个数据节点创建一个主节点(它自身)和至少一个副节点(备份节点),随机将主节点固定存储在某一台处理主机上,同时在该处理主机上保存主节点的相邻数据节点,其中,如果相邻数据节点的主节点在其处理主机上,则存储相邻数据节点的副节点。 上述这种以数据节点为单位进行数据切分的图结构数据处理方式中,关系紧密的数据节点往往会被存储在不同的处理主机上,而关系紧密的数据节点实际上非常有可能要被同时访问,如果这些数据节点不在同一个处理主机上,则需要耗费大量的通信资源来从不同的处理主机上获得关系紧密的不同数据节点。而且,上述的随机分配以及数据节点冗余存储的方式,对于一些度数(即邻居节点的个数)很大的数据节点,需要消耗很多的运算资源,从而,将导致较大的运算开销和通信开销,使得数据处理效率较低。
技术实现思路
针对上述存在的问题,本专利技术提供一种分布式图计算系统数据切分方法和系统,用以克服现有技术中以数据节点为单位进行数据切分的图结构数据处理方式导致数据处理效率较低的缺陷。 本专利技术提供了一种分布式图计算系统数据切分方法,包括: 根据预设算法,确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值; 根据所述各第一相邻节点的标签,获得每个所述标签在所述各第一相邻节点中的出现次数,所述标签包括节点标识ID ; 根据所述出现次数,确定所述各第一相邻节点的标签中是否存在出现次数相同的至少两个标签; 若存在,则确定与所述至少两个标签分别对应的各第二相邻节点,并根据所述数据节点与所述各第二相邻节点间的相似性度量值,确定所述数据节点的标签; 将所述待处理数据中具有同一标签的数据节点划分到同一社区,并将属于同一社区的数据节点存储在同一处理主机中。 本专利技术提供了一种分布式图计算系统数据切分系统,包括: 第一确定模块,用于根据预设算法,确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值; 获取模块,用于根据所述各第一相邻节点的标签,获得每个所述标签在所述各第一相邻节点中的出现次数,所述标签包括节点标识ID ; 第二确定模块,用于根据所述出现次数,确定所述各第一相邻节点的标签中是否存在出现次数相同的至少两个标签; 第三确定模块,用于若存在,则确定与所述至少两个标签分别对应的各第二相邻节点,并根据所述数据节点与所述各第二相邻节点间的相似性度量值,确定所述数据节点的标签; 处理模块,用于将所述待处理数据中具有同一标签的数据节点划分到同一社区,并将属于同一社区的数据节点存储在同一处理主机中。 本专利技术提供的分布式图计算系统数据切分方法和系统,对于数据规模很大的待处理数据,针对待处理数据中的每个数据节点确定自身与各相邻节点间的相似性度量值,进而在确定其各相邻节点的标签中存在多个出现次数相同的标签时,根据与拥有该相同标签的各相邻节点间的相似性度量值,确定自身的标签,进而将待处理数据中具有同一标签的数据节点划分到同一社区,并将属于同一社区的数据节点存储在同一处理主机中。通过对每个数据节点进行与其相邻节点间的相似性度量,充分考虑了待处理数据的整体结构特性,进而对待处理数据中的每个数据节点基于该相似性特性,结合其相邻节点的标签进行聚类分析,以最终将待处理数据划分为多个社区,每个社区中的数据节点都具有同一标签,而且,每个社区中的数据节点也具有较高相似性,从而以社区为单位进行数据节点在处理主机上的切分存储。由于充分考虑了数据节点间的相似性特征以及基于标签实现了数据节点的社区划分,节省了运算开销,而且使得关系密切的数据节点能够被分配到同一处理主机中,大大减少了在不同处理主机间的通信开销,从而提高了数据处理效率。 【专利附图】【附图说明】 图1为本专利技术分布式图计算系统数据切分方法实施例一的流程图; 图2为本专利技术分布式图计算系统数据切分方法实施例二的流程图; 图3为本专利技术分布式图计算系统数据切分系统实施例一的结构示意图; 图4为本专利技术分布式图计算系统数据切分系统实施例二的结构示意图。 【具体实施方式】 图1为本专利技术分布式图计算系统数据切分方法实施例一的流程图,如图1所示,该方法包括: 步骤101、根据预设算法,确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值; 本实施例提供的所述方法适用于采用分布式数据处理系统对大规模的图结构数据进行数据切分存储的场景,在该分布式数据处理系统中设置有多个处理主机。值得说明的是,该系统在接收到大量待处理数据后,可以采用现有的分布式处理方式将该待处理数据预先分布式存入多个处理主机中,而本实施例提供的所述方法可以针对预存入各处理主机中的待处理数据进行处理,当然,也可以在接收到待处理数据后直接进行处理。本实施例提供的所述方法可以由一处理系统来执行,该处理系统比如为分布式处理系统的管理平台。 本实施例中,对于图结构的数据,数据可以表示为数据节点与边的抽象图,处理系统针对待处理数据中的每个数据节点,分别计算其与自身相邻节点的相似度度量值,其中,上述预设算法例如可以是基于数据节点与其相邻节点之间的连接边的权重,或是基于数据节点的度数(其相邻节点的总数)与每个相邻节点本文档来自技高网
...
分布式图计算系统数据切分方法和系统

【技术保护点】
一种分布式图计算系统数据切分方法,其特征在于,包括:根据预设算法,确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值;根据所述各第一相邻节点的标签,获得每个所述标签在所述各第一相邻节点中的出现次数,所述标签包括节点标识ID;根据所述出现次数,确定所述各第一相邻节点的标签中是否存在出现次数相同的至少两个标签;若存在,则确定与所述至少两个标签分别对应的各第二相邻节点,并根据所述数据节点与所述各第二相邻节点间的相似性度量值,确定所述数据节点的标签;将所述待处理数据中具有同一标签的数据节点划分到同一社区,并将属于同一社区的数据节点存储在同一处理主机中。

【技术特征摘要】

【专利技术属性】
技术研发人员:李博宋骐李建欣于伟仁
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1