一种基于spark平台的内存迭代的重叠社区并行发现方法技术

技术编号：12351422 阅读：70 留言：0更新日期：2015-11-19 02:09

本发明专利技术公开了一种基于spark平台的内存迭代的重叠社区并行发现方法，步骤如下：在配置有spark环境的计算集群上，通过GraphX读取原始社区网络数据，构造图实例；通过GraphX并行计算出图实例中每个顶点的邻居节点的集合，作为图实例中每个顶点的属性；将图实例的每条边初始为一个社区，根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度；寻找相似度最大的两个社区，将这两个社区合并为新的社区；更新社区相似度集合；使用分割密度公式计算此次社区划分的分割质量；判断目前社区数量是大于1还是等于1，如果等于1，就获得分割质量最大的社区划分。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术用来发现网络中的社区结果，具体涉及一种基于spark平台的内存迭代的重叠社区并行发现方法。
技术介绍
复杂网络是复制系统的抽象，现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。网络中的节点表示系统中的个体，边表示个体之间的关系，如社会关系网络，电力网等。社区是复杂网络的一个子图，同一社区内的节点与节点之间连接很紧密，而社区与社区之间的连接比较稀疏。所谓社区发现是将图划分为多个确定数量的社区的集合。若任意两个社区的顶点集合的交集均为空，则称此集合为非重叠社区，否则称为重叠社区。早期的社区发现算法主要是针对非重叠社区。但是在现实的很多复杂系统中是存在一个个体属于多个社区的情况，这些算法会将网络中属于多个社区的节点归结到一个社区中。所以这些算法适应范围不广。在重叠社区发现算法中，很多算法需要通过多次计算来获得最佳的社区数，计算开销过大。通过将传统串行算法改造设计成高效并行算法，可以大幅提高效率。可以通过hadoop MapReduce框架实现并行计算。但hadoop存在一些不足。Hadoop 的MapReduce模型并不适合描述复杂的数据处理过程。其次hadoop不支持内存迭代计算。一次MapReduce过程结束将结果写到磁盘，迭代过程时，下一次输入数据需要再次从磁盘中取出数据。 Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析， Spark提供了与Hadoop相似的开源集群计算环境，但基于内存和迭代优化的设计，Spark在某些工作负载表现更优秀。Spark Graph...
一种基于spark平台的内存迭代的重叠社区并行发现方法

【技术保护点】
一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，包括如下步骤：步骤(1)：在配置有spark环境的计算集群上，通过GraphX读取原始社区网络数据，构造图实例；步骤(2)：通过GraphX并行计算出图实例中每个顶点的邻居节点的集合，作为图实例中每个顶点的属性；步骤(3)：将图实例的每条边初始为一个社区，根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度；步骤(4)：寻找相似度最大的两个社区，将这两个社区合并为新的社区；步骤(5)：更新社区相似度集合；步骤(6)：使用分割密度公式计算此次社区划分的分割质量；步骤(7)：判断目前社区数量是大于1还是等于1，若划分后的社区数量大于1，继续步骤(4)，如果等于1，就获得分割质量最大的社区划分。

【技术特征摘要】

【专利技术属性】
技术研发人员：郭山清，鲁宗飞，崔立真，许信顺，刘士军，王昌圆，杨伯宇，陶立冬，田燕琛，李文哲，
申请(专利权)人：山东大学，济南市公安局，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人