一种基于局部最短回路的社会网络群体划分方法技术

技术编号:12879875 阅读:63 留言:0更新日期:2016-02-17 14:00
本发明专利技术涉及一种基于局部最短回路的社会网络群体划分方法,该方法具体过程为:读取社会网络数据,构造以社交网络用户为节点,用户关系为边的社交网络图,为每一个用户赋予一个唯一代表其所属社区的标签值,采用基于局部最短回路的标签传播算法来更新用户节点的标签,经过若干次迭代更新后,联系紧密的节点会拥有相同的标签值,得到社会网络的社区结构。根据本发明专利技术实施例的社会网络群体划分方法,应用用户关系图中是否构成局部回路的属性改进标签传播算法,与现有的社区网络划分方法相比,对用户群体进行划分有利于提高社区划分的准确率,有效挖掘社会网络中的社区结构,划分结果在网络舆情监测、搜索引擎、商业目标挖掘等领域具有较好的应用价值。

【技术实现步骤摘要】

本专利技术涉及社会网络计算
,尤其涉及一种基于局部最短回路的社会网络 群体划分方法。
技术介绍
大多数复杂网络呈现模块化特征,即系统内存在一些相对独立的群组。这种内部 节点连接稠密而与网络中其它部分连接稀疏的群组称为社区。一般而言,社区内的节点之 间存在某种程度的相似性,而这种相似性对于人们研究复杂网络具有重要的意义。如社交 网络中同组人具有区别于其它组的共同特性或观点,这对网络舆情监测具有重要的意义; 万维网中,如果知道某些网页的少量信息,就可以外推到同组内的其它Web网页,这对搜索 引擎是非常有用的;科学家协作网中同组的科学家从事类似的研究。社区发现算法的目标 就是发现网络中存在的这样节点群组,这对研究复杂系统具有重要的意义。针对社区发现,研究者们将社区发现算法大体上分为三类:计算机科学领域的图 形分割的算法、社会学领域的层次聚类算法和近年来得到广泛关注的标签传播算法。图形 分割算法是基于图论的二分迭代算法,其核心思想是把网络分割成两个最优的子图,再对 划分得到的子图继续进行分割,不断重复进行同样的操作,直到有足够的子图为止。基于图 形分割的社区发现算法主要有基于Laplace矩阵的谱平分法、Kernighan-Lin算法(K-L算 法)和派系过滤算法(CliquePercolationMethod,CPM算法)等。图形分割算法的缺点 是要求知识社区的先验知识,即社区数目或社区大小,这对真实网络而言是很难做到的。层 次聚类算法的核心是分析网络中各个节点间的相似度以及连接的紧密程度,其中一个重要 的概念是边介数,即通过一条边的所有最短路径的数目。根据社区的定义,通过社区之间的 边的最短路径数目必然大于通过社区内的边的最短路径数,也就是说,各个社区之间节点 的边介数要远远大于社区内部节点的边介数,根据边介数的大小增加或删除社区间的边可 以获得社区结构。根据层次聚类时是删除边还是增加边,可以把层次聚类算法分为两类,即 分裂算法和凝聚算法。前者的代表是GN算法,后者的代表是Newman快速算法。层次聚类 算法不需要预先定义社区的大小,但是缺点是无法确定最终需要将网络划分成多少个社区 才是最合适的,且很多节点的归属也无法确定,所以在实际应用中往往得不到令人满意的 结果。为了改进以上算法的缺点,Raghavan等人提出标签传播算法(LabelPropagation Algorithm,LPA)社区发现方法,该算法是一种接近线性时间复杂度社区发现算法,这也是 到目前为止最快的社区发现算法。标签传播算法是一种基于启发策略的不依赖于先验知识 的算法,不需要设定目标函数,在许多真实网络中取得了较好的效果。传统的标签传播算法虽然时间复杂度低、速度快,但是该算法在标签传播过程中, 认为被更新节点的每一个邻居节点对该节点的影响是平等的,邻居节点与该节点间的连接 关系没有加以考虑,这很容易导致标签在不同社区间的任意传播,进而影响了标签传播算 法的准确率。 鉴于上述缺陷,现有的社区发现方法的划分结果准确性方面还有很大的提升空 间。
技术实现思路
本专利技术的目的在于提供,该方法 有利于提1?社会网络划分的准确度。 为实现上述目的,本专利技术提供, 该具体过程为: 步骤A:读取社交网络数据,构造以社交网络用户为节点,用户关系为边的社交网 络图; 步骤B:初始化,为每个节点分配一个唯一代表其所属社区的标签,迭代次数t= 1 ; 步骤C:随机排列所有节点,生成一个节点序列X; 步骤D:节点标签更新; 步骤E:若所有节点的标签不再变化,则算法停止;否则,t=t+Ι,并返回步骤C; 步骤F:将所有具有相同标签的顶点归为一个社区。 进一步地,所述步骤B中,为每个节点分配一个唯一代表其所属社区的标签具体 过程为,即Cn =Ln,Cn表示节点η所属社区,Ln表示节点η的标签值。 进一步地,所述步骤D中,节点标签更新具体包括以下步骤: 步骤D1:对于节点序列X中的每一个节点X,用它邻居节点标签中出现频率 最高的那个标签来更新该节点的标签,假设节点X的k个邻居节点分别是Xl,χ2,..., xk,第t次时迭代节点χ的标签依据于它邻居节点中所有经过了t次迭代后节点的 标签及其它经过了第t-Ι次迭代节点后所得到的标签,节点X的标签更新公式为: ~(0 =尽(\?^),~,\(〇,£^+^-1)_^-1)),其中函数8返回的是节点1的邻居节点 标签中频率最1?的标签。 步骤D2 :如果邻居节点标签中存在多个最1?频率的标签,则在χ的邻居节点中选 择能与节点X构成最短回路的邻居节点的标签作为该顶点标签;如果最短回路长度相等, 则在其中随机选择一个节点标签;如果没有回路,则随机选择一个邻居的标签。 进一步地,所述步骤E中,算法的迭代终止条件为社会网络达到平衡,标签数目不 再发生变化。 与现有技术相比较本专利技术的有益效果在于:本专利技术提出了一种基于局部最短回路 的社会网络群体划分方法,与现有的社区发现算法相比,划分结果更接近于真实的网络结 构,提高了准确度。【附图说明】 图1为本专利技术方法的实现流程图。 图2为采用本专利技术方法(由LPALC表示)和标签传播算法(由LPA表示)在1000 个节点的基准网络中,在网络中节点的平均度数<k> = 15、度数的最大值maxk= 50条件 下,两种算法运行100次的平均匪I值随混合参数μ(μe,μ表示不同社区之 间的节点中有连边的部分)的取值变化对比图。 图3为采用本专利技术方法(由LPALC表示)和标签传播算法(由LPA表示)在1000 个节点的基准网络中,在网络中节点的平均度数<k> = 30、度数的最大值maxk= 50条件 下,两种算法运行100次的平均NMI值随混合参数μ(μe)的取值变化对比图。 图4为采用本专利技术方法(由LPALC表示)和标签传播算法(由LPA表示)在5000 个节点的基准网络中,在网络中节点的平均度数<k> = 15、度数的最大值maxk= 50条件 下,两种算法运行100次的平均NMI值随混合参数μ(μe)的取值变化对比图。 图5为采用本专利技术方法(由LPALC表示)和标签传播算法(由LPA表示)在5000 个节点的基准网络中,在网络中节点的平均度数<k> = 30、度数的最大值maxk= 50条件 下,两种算法运行100次的平均NMI值随混合参数μ(μe)的取值变化对比图。 图6为采用本专利技术方法(由LPALC表示)和标签传播算法(由LPA表示)在10000 个节点的基准网络中,在网络中节点的平均度数<k> = 15、度数的最大值maxk= 50条件 下,两种算法运行100次的平均NMI值随混合参数μ(μe)的取值变化对比图。 图7为采用本专利技术方法(由LPALC表示)和标签传播算法(由LPA表示)在10000 个节点的基准网络中,在网络中节点的平均度数<k> = 30、度数的最大值maxk= 50条件 下,两种算法运行100次的平均NMI值随混合参数μ(μe)的取值变化对比图。【具体实施方式】 以下结合附图,对本专利技术上述的特征和优点作更加详细的说明。 图1是本专利技术的的实现流程图。 如图1所示,所述方法包括以本文档来自技高网
...

【技术保护点】
一种基于局部最短回路的社会网络群体划分方法,其特征在于,该具体过程为: 步骤A:读取社会网络数据,构造以社交网络用户为节点,用户关系为边的社交网络图; 步骤B:初始化,为每个节点分配一个唯一代表其所属社区的标签,迭代次数t=1; 步骤C:随机排列所有节点,生成一个节点序列X; 步骤D:节点标签更新; 步骤E:若所有节点的标签不再变化,则算法停止;否则,t=t+1,并返回步骤C; 步骤F:将所有具有相同标签的顶点归为一个社区。

【技术特征摘要】

【专利技术属性】
技术研发人员:张贤坤田雪
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1