分布式图计算系统数据切分方法和系统技术方案

技术编号：10914109 阅读：360 留言：0更新日期：2015-01-14 20:13

本发明专利技术提供一种分布式图计算系统数据切分方法和系统，该方法包括：确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值；获得各第一相邻节点的标签的出现次数，并确定是否存在出现次数相同的至少两个标签；若存在，则确定与至少两个标签分别对应的各第二相邻节点，并根据所述数据节点与各第二相邻节点间的相似性度量值，确定所述数据节点的标签；将具有同一标签的数据节点划分到同一社区，将属于同一社区的数据节点存储在同一处理主机中。充分考虑了数据节点间的相似性特征以及基于标签实现了数据节点的社区划分，节省了运算开销，而且关系密切的数据节点被分配到同一处理主机中，减少了在不同处理主机间的通信开销。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种分布式图计算系统数据切分方法和系统，该方法包括：确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值；获得各第一相邻节点的标签的出现次数，并确定是否存在出现次数相同的至少两个标签；若存在，则确定与至少两个标签分别对应的各第二相邻节点，并根据所述数据节点与各第二相邻节点间的相似性度量值，确定所述数据节点的标签；将具有同一标签的数据节点划分到同一社区，将属于同一社区的数据节点存储在同一处理主机中。充分考虑了数据节点间的相似性特征以及基于标签实现了数据节点的社区划分，节省了运算开销，而且关系密切的数据节点被分配到同一处理主机中，减少了在不同处理主机间的通信开销。【专利说明】分布式图计算系统数据切分方法和系统
本专利技术属于数据处理领域，尤其是涉及一种分布式图计算系统数据切分方法和系统。
技术介绍
近年来，以互联网、高能物理、计算生物为代表的众多领域产生的海量数据对数据处理系统提出了更高的要求。在这些海量数据中，由节点和边组成的图结构数据作为一种重要的数据结构，可以有效表示很多不同领域的数据关系，例如，社交网络数据可以表现为一种图结构数据，其中节点代表用户，边代表用户之间的关系，例如两个用户相互关注则表明两个对应节点之间有一条边。同样，英特网的网页数据也可以表现为一种图结构数据，节点代表网页，边代表网页之间的关系，例如网页A上有一个指向网页B的超链接，则对应的节点A和节点B之间有一条边。随着数据比如图结构数据的数据量越来越大，受限于有限的运算和存储能力，单机已经不能满足对大规模图结构数据的高...
分布式图计算系统数据切分方法和系统

【技术保护点】
一种分布式图计算系统数据切分方法，其特征在于，包括：根据预设算法，确定待处理数据中的每个数据节点与自身的各第一相邻节点间的相似性度量值；根据所述各第一相邻节点的标签，获得每个所述标签在所述各第一相邻节点中的出现次数，所述标签包括节点标识ID；根据所述出现次数，确定所述各第一相邻节点的标签中是否存在出现次数相同的至少两个标签；若存在，则确定与所述至少两个标签分别对应的各第二相邻节点，并根据所述数据节点与所述各第二相邻节点间的相似性度量值，确定所述数据节点的标签；将所述待处理数据中具有同一标签的数据节点划分到同一社区，并将属于同一社区的数据节点存储在同一处理主机中。

【技术特征摘要】

【专利技术属性】
技术研发人员：李博，宋骐，李建欣，于伟仁，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人