一种基于集成学习的社会网络重叠社区发现方法技术

技术编号:8323505 阅读:403 留言:0更新日期:2013-02-14 01:16
本发明专利技术提出一种基于集成学习的社会网络重叠社区发现方法,属于社会网络技术领域。对于一个社会网络数据集,首先利用KASP方法对网络进行社区划分,得到多个互不相同的Λ种社区划分候选方案,然后运用CCChooser选择方法从Λ种社区划分候选方案中选择出待聚合的λ种社区划分方案,最后对λ种待聚合社区划分方案的社区进行层次软聚类并输出最优截断点对应的生成簇作为最终的网络重叠社区结构。与基于个体聚类器的重叠社区发现方法相比较,本发明专利技术文提出的方法能发现更有效的网络重叠社区结构。本发明专利技术应用于以微博网络、邮件网络、BBS论坛网络等各种社交平台,可以优化信息网络结构、提升信息主动服务质量、增强网络文化安全等。

【技术实现步骤摘要】

本专利技术涉及一种Web2. O下信息交互平台中的重叠社区挖掘,特别是一种运用集成学习理论的重叠社区发现方法,属于社会网络

技术介绍
社会网络(Social Network,简称SN)是一种用来表示社会个体成员互动关系的关系网络,广泛存在于人类社会,有着诸如家庭、俱乐部、小区、城市等不同组织结构的表现形式。迅猛发展的Web技术极大地丰富了社会网络的表现形式,微博网络、邮件网络、BBS论坛网络等各种社交网络层出不穷。如何从这些纷繁芜杂的社会网络中发现隐藏的潜在有价值的社区结构模式,成为了一个吸引纵多学者参与的热门研究方向。社区结构模式的一个显著特点就是社区内部节点连接紧密而社区间连接松散,这一特点诱导出大量的社会网络社区发现方法。一般来说,根据社区之间是否允许重叠可以将社区发现方法分为两类,第一类方法假定社会网络个体只属于某个社区,利用各种硬聚类算法把社会网络个体划分到互不重叠的社区。例如,基于划分聚类的K-Means方法、基于边聚集系数的GN分割方法、基于代数图论的SM谱聚类方法、等等。此类方法忽略了由于社会网络个体可以同时隶属于多个不同社区而导致的社区重叠性,从而无法发现社会网络中隐藏的真实社区结构。例如,根据微博者所发微博的主题可 以将微博者划分到不同的微群社区,不同微群社区之间存在着相同的微博者。第二类方法消除了第一类方法中的假设, 能够发现社会网络的重叠社区结构。例如,Palla等人首先提出通过滚动K完全图来发现重叠社区的CPM方法,沈华伟等人提出利用层次聚类思想来实现重叠社区发现的EAGLE算法,Magdon-Ismail等人提出基于谱聚类思想的重叠社区发现算法SSDE。此类方法中的现有算法具有计算复杂度高、结果社区质量偏低等不同缺陷,不能很好地应用于实际社会网络的重叠社区挖掘。总之,现有技术中虽然存在着从社会网络中发现社区的相关方法,但这些方法不是无法反应社区的重叠属性,就是具有影响其实际应用的多种缺陷,因而不适合从社会网络中发现重叠社区。
技术实现思路
本专利技术的目的是为了克服现有技术中的社区发现方法不能快速有效地发现社会网络重叠社区结构的缺陷,提供。为了实现上述目的,本专利技术提供了,应用于Web2. O下的社交网络,其特征在于,所述方法综合集成学习策略与谱聚类方法实现社会网络的重叠社区发现,包括以下步骤A.运用快速谱聚类方法KASP计算获取社会网络的Λ种社区划分方案;B.运用CCChooser选择方法从各种社区划分候选方案中选择出待聚合的q种社区划分方案,其中本文档来自技高网
...

【技术保护点】
一种基于集成学习的社会网络重叠社区发现方法,应用于Web2.0下的社交网络,其特征在于,所述方法综合集成学习策略与谱聚类方法实现社会网络的重叠社区发现,包括以下步骤:A.运用快速谱聚类方法KASP计算获取社会网络的Λ种社区划分方案;B.运用CCChooser选择方法从各种社区划分候选方案中选择出待聚合的???????????????????????????????????????????????种社区划分方案,其中;C.对待聚合社区划分方案中的社区进行层次软聚类,?输出最优截断点对应的生成簇作为网络重叠社区结构。2012103718768100001dest_path_image002.jpg,dest_path_image004.jpg

【技术特征摘要】
1.一种基于集成学习的社会网络重叠社区发现方法,应用于Web2. O下的社交网络,其特征在于,所述方法综合集成学习策略与谱聚类方法实现社会网络的重叠社区发现,包括以下步骤 A.运用快速谱聚类方法KASP计算获取社会网络的Λ种社区划分方案; B.运用CCChooser选择方法从各种社区划分候选方案中选择出待聚合的q种社区划分方案,其中; C.对待聚合社区划分方案中的社区进行层次软聚类,输出最优截断点对应的生成簇作为网络重叠社区结构。2.如权利要求I所述的基于集成学习的社会网络重叠社区发现方法,其特征在于,所述步骤A中的KASP聚类方法流程如下 步骤21 :对社会网络的节点集合进行K-Means聚类,获得k个社区中心集合 ,对所有的节点VXi=IX--JVD按如下方式建立节点到社区中心的映射表节点与v所对应的社区中心为》ij),其中,表示节点巧与社区中心5之间的欧氏距离; 步骤22 :对社区中心集合进行SM聚类得到社区中心的聚类; 步骤23 :根据节点到社区中心的映射表与SM聚类方法得到的社区中心聚类将社会网络节点归簇,形成一个包含k个不相交社区的划分方案。3.如权利要求2所述的基于集成学习的社会网络重叠社区发现方法,其特征在于,所述SM聚类方法流程如下 步骤31 :建立社区中心相似度矩阵S及其对角矩阵D,其中= 丨丨易表示 步骤32 :构建社区中心相似度矩阵S的变体Laplacian矩阵=IT1 (D-S),并计算矩阵Alf的特征向量; 步骤33 :选择最大k个特征值对应的特征向量作为列向量构造低维空间 /eiT* ; 步骤34 :将社区中心集中的第i个元素;对应到U中的第...

【专利技术属性】
技术研发人员:黄发良
申请(专利权)人:福建师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1