基于混合测度的加权网络社区聚类方法技术

技术编号:12702619 阅读:84 留言:0更新日期:2016-01-13 22:38
本发明专利技术公开了一种基于混合测度的加权社会网络社区聚类方法,用来挖掘大规模复杂网络中节点的聚类关系。该方法包括:引入一种新的节点亲密度定义,用于衡量有向加权网络中节点之间的关联强度;通过新定义的节点亲密度对有向/无向网络的边进行加权处理;提出一种基于节点亲密度和度的模块度新定义,并使用这个混合测度对有向/无向网络进行分层次的社区结构检测。与传统的社区结构检测方法相比,混合测度增加了社区划分时可参考的节点关系信息,提高了社区划分的质量,降低了超大社区的规模。同时,该方法为无向无权、有向无权、无向加权、有向加权网络的社区划分提供了一种统一的分析方法。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和复杂网络分析领域,特别涉及大规模加权社会网络中基于 混合测度的社区结构检测方法。 技术背景 随着以互联网为主的社交网络的广泛应用,越来越多的人加入到社会网络中进行 信息交流活动。社会网络的应用改变了人们制造、传播和使用信息的方式。同时,社会网络 中用户的规模和所制造的信息也在快速增加。据BusinessInsider的报道,世界上最大的 社交网站Facebook的用户数量在2014年7月25日已经突破22亿,占全球总人口的1/3。 新浪微博的活跃用户数量在2014年9月30日达到1. 67亿,并且每天新增的微博信息达到 1亿条之多。 目前,已有许多学者使用复杂网络的理论和方法从关键成员影响力、社区发现、用 户兴趣建模等不同的方向对社会网络进行了深入的研究。其中,社区发现作为社会网络研 究中的一个基础性问题,不仅在社会学、生物学、电子商务等方面具有重要研究意义,在网 络安全方面也具有实际应用价值。现有的信息网络是一个边界模糊、层次不清、高度分布、 动态演化的复杂网络。在这种大型的复杂网络中挖掘社区结构有助于找到系统的边界区和 核心区,以便在边界区域部署防火墙、防病毒软件和入侵检测系统等安全设备从而对边界 内部实施隔离和保护。另外通过核心社区和骨干结点的识别,有助于控制病毒、舆情在网络 中的快速传播。在犯罪组织识别方面,针对国际化恐怖主义和有组织犯罪将活动逐步转移 到信息较为隐秘的网络上来,引入社区分析技术能够快速地提取社区结构,分析其上下级 关系,锁定关键目标群体,这对犯罪侦查、恐怖活动预测、态势掌控等都具有重要意义。 近年来,研究者在社会网络分析方面做了大量的工作,但是大部份都是基于无权 网络。无权网络中的社区划分就是将网络划分为若干个社区,使得社区内部节点之间的连 接相对紧密,不同社区的节点之间的连接相对稀疏。然而现实网络如博客网络、电子邮件网 络、科学家合作网络、新陈代谢网络等在本质上就是加权网络,不仅要观察两个节点之间 是否有关联还要观察其关联的强度。节点之间的关系应该是个渐变有梯度的值,它不应该 只有"亲密"和"不亲密"两种界定,而应该有"不亲密"、"比较亲密"、"亲密"和"非常亲密" 等这样梯度化的量度方式。 现代图论技术的发展为复杂社会网络的研究带来了深远的影响。其中,与真实社 会网络最相关的一个图论特征就是社区结构,也称为聚类。在计算机科学、社会学、生物学 等领域都有大量的研究人员使用图论的理论和方法来进行社区结构的检测,主要包括:图 分割方法,如GN(Girvan-Newman)算法;模块度最优化方法,如FastNewman算法、Luovain 算法、SA(SimulatedAnnealing)算法等;标签传播方法,如LPA(LabelPropagation Algorithm)算法、基于hubs的算法、Copra算法等;动力学方法,如FEC(Findingand ExtractingCommunities)算法、Infomap算法、RN(Ronhovde-Nussinov)算法等。这些算 法都是基于网络的结构信息进行社区发现,近年来一些学者开始考虑将网络节点的属性信 息加入到社区发现中。Steinhaeuser等人提出了 一种为边加权的NAS(nodeattribute similarity)方法,然后将其与传统的随机游走方法结合。Dang等人将模块度函数与节点 属性相似度函数进行加权求和,然后利用Luovain算法检测出社区结构。Naresh等人提出 利用多个属性的相似性并通过传统的聚类方法发Twitter的社区。Deitrick等人利用用户 在一段时间内发过的tweets信息来逐步提高社区发现的效果。孙怡帆等人通过基于相似 度的模块度函数来挖掘微博网络中的社区结构。 在这些算法中,模块度最优化算法是当前使用最广的一种社区结构检测方法。 Newman提出模块度的测度最早是为GN算法定义一个终止条件,后来迅速成为众多社区 检测算法衡量社区划分质量的一个重要标准。但是模块度的定义仍然存在一些问题。 一般认为,模块度值越大,所得到的划分也越好。但是模块度优化时存在着分辨率限制 (resolutionlimit)和极端退化(extremedegeneraciess)问题。分辨率限制问题是指使 用模块度优化的算法不能发现尺寸小于一定规模的社区。极端退化问题是指全局的模块性 最大化划分常常隐藏在大量(指数级)的结构并不相似的高模块性解中。 由于模块度的定义已经催生了大量优秀的社区检测方法,与其放弃这些方法,不 如考虑能否用较小的代价增强模块度最优化算法划分社区结构的有效性。Khadivi等人认 为采用链接加权的预处理机制和应用多层次、多粒度的社区检测算法,可缓解模块度函数 的分辨率限制和极端退化问题。
技术实现思路
为了解决上述问题,本专利技术着重研究如何给复杂网络的链接分配合适的权重,并 采用分层次的模块度最优化算法思想来获得更有效、准确的社区划分结果。本专利技术综合考 虑网络的拓扑结构以及节点之间关联的亲疏程度,提出了一种基于混合测度的加权网络社 区结构发现方法。针对模块度最优化带来的分辨率限制问题和极端退化现象,通过在模块 度定义中引入节点亲密度和节点度两个因子,增加社区划分时可参考的节点关系信息,从 而提高社区划分的质量,降低超大社区的规模。 本专利技术所采用的技术方案主要包括:通过定义节点亲密度对有向/无向网络的边 进行加权处理;提出一种基于节点亲密度和度的模块度新测度,使用分层次的检测算法,对 有向/无向加权网络进行社区结构发现。具体内容如下: 1.网络初始化:将一个具体的网络抽象表示为加权图G(N,E,W),用邻接矩阵Ay 表示网络中节点间的连通关系,并计算有向/无向网络中节点的度。 2.在实际的社会网络中,我们所获得的原始数据是可以直接反映两节点之间联系 的频繁程度。因此,我们提出节点亲密度这个新的测量指标来处理这些原始数据的加权操 作;同时给出其在有向/无向两种不同网络类型下的明确定义。 3.基于模块度最优化的社区划分算法倾向于将度较高的节点划分到不同的社区 中。在设计社区划分的节点聚类选择判据时,应综合考虑节点亲密度和节点度两个影响因 素。因此边的权重取决于两个因素,一个是节点之间联系的亲密度,另一个是两个节点的度 值。 4.在新的边权重定义的基础上,可以得到基于节点亲密度和度的模块度新定义。 使用这个新的混合模块度测度,对有向/无向加权网络进行基于模块度最优化思想的社区 结构检测。该方法在社区划分时能够获得较高的聚类质量,并且能够快速检测到网络中的 层次化社区结构。 5.基于混合模块度的加权社会网络分层次社区聚类算法主要分为两个阶段进行 重复迭代。 第一阶段,在N个节点的无权网络中,通过边的加权处理得到每条边的新权重值。 接下来,每个节点形成一个社区,社区个数的初始值为N。然后,对于任意节点i,将节点i 加入到与它相邻的每一个邻居节点所在的社区,并计算加入后的模块度增量AQ。比较AQ 的值,选取AQ为最大值时对应的那个邻居节点j,将节点i加入到节点j所在的社区,这里 要求AQ值必须为正。当所有的模块度增量AQ都为负值时,节点i保持不动仍本文档来自技高网
...

【技术保护点】
一种基于混合测度的加权社会网络社区聚类方法,其特征在于,包括以下步骤:(1)网络初始化;(2)提出一种新的节点亲密度定义;(3)通过新定义的节点亲密度,对有向/无向网络的边进行加权处理;(4)提出一种基于节点亲密度和度的模块度新测度;(5)使用混合模块度对有向/无向加权网络进行分层次的社区结构检测。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘瑶刘峤秦志光其他发明人请求不公开姓名
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1