社交网络中基于节点间相似性的重叠社区检测方法及系统技术方案

技术编号:16188288 阅读:32 留言:0更新日期:2017-09-12 11:28
本发明专利技术公开了一种社交网络中基于节点间相似性的重叠社区检测方法及系统该方法包括:接收待检测的社交网络;计算所述待检测社交网络中节点间的相似程度;基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出检测的重叠社区的结构。本发明专利技术的社交网络中基于节点间相似性的重叠社区检测方法,在社交网络环境中融合了网络结构信息与节点属性信息的相似性计算方法,然后在此基础之上提出了融合节点相似性的重叠社区发现算法,以得到网络结构与节点偏好双内聚的高质量社区。

Overlapping community detection method and system based on inter node similarity in social network

The invention discloses a social network based on nodes including similar overlapping community detection method and system of the method: receiving to detect social network; calculate the detected social network nodes in the similar degree; the degree of similarity between the nodes based on the measurement, inspection and overlapping community social networks structure; overlapping community detection of output. Similar overlapping community detection method based on the nodes in the social network, the social network environment combines the similarity calculation method of network structure information and node attribute information, and then proposes a fusion node similarity of overlapping community discovery algorithm, in order to get high quality community network structure and double node preference cohesion.

【技术实现步骤摘要】
社交网络中基于节点间相似性的重叠社区检测方法及系统
本专利技术涉及网络数据处理
,尤其涉及一种社交网络中基于节点间相似性的重叠社区检测方法及系统。
技术介绍
现实世界中存在的许多复杂系统大多可以用复杂网络进行描述。例如:新陈代谢网,蛋白质交互网,基因网络,科学家合著网络,电力网,航空网以及社交网络等等。一直以来人们对于复杂网络的研究从未间断,近些年来,由于互联网的快速发展使得人们越来越关注复杂网络,尤其是社交网络,并进行了大量的研究工作。一般而言,复杂网络由于自身内部结构较为复杂,直接对整个网络进行研究是一件十分困难的事,因此人们一般通过研究网络的社区结构从而更好地理解整个网络。所谓社区,是节点的集合,在社区内部节点连接很紧密,但是属于不同社区的节点连接则比较稀疏。社区结构普遍存在于复杂网络中,社交网络作为复杂网络的一类也已被证明网络内部具有社区结构,很多用于复杂网络的社区发现算法也可用于社交网络。现有的关于社区发现问题的处理方法主要分为了以下三类。一为基于节点连边的方式,即通过提取网络中节点之间的连边,将社区发现问题转化为图论等问题进行处理。此类方法没有考虑到社交网络中环境中节点所具有的属性信息和潜在的兴趣特征。一为基于节点内容的方式,通过提取网络中节点的自身属性信息和潜在的兴趣特征,将社区发现问题转化为节点聚类等问题进行处理。此类方法忽略了网络中极为重要的结构拓扑信息。还有一种综合方法,将网络结构与节点信息相结合,分别基于网络结构和节点信息对同一网络进行社区发现,从而得到两种不同的社区结构,在此基础之上使用一些特定的方法将两种社区进行融合,最终得到结构与内容双内聚的社区。此类方法需要进行两次的社区发现,在规模较大的社交网络中,其算法的效率较低。
技术实现思路
基于上述问题,本专利技术提供一种社交网络中基于节点间相似性的重叠社区检测方法及系统,在社交网络环境中融合了网络结构信息与节点属性信息的相似性计算方法,然后在此基础之上提出了融合节点相似性的重叠社区发现算法,以得到网络结构与节点偏好双内聚的高质量社区。为解决上述问题,本专利技术提供了一种社交网络中基于节点间相似性的重叠社区检测方法,具体包括:S1、接收待检测的社交网络;S2、计算待检测社交网络中节点间的相似程度;S3、基于节点间的相似程度,检测社交网络的重叠社区;S4、输出检测的重叠社区的结构。其中,计算所述待检测社交网络中节点间的相似程度,具体包括:根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;根据节点的属性计算属性相似度,得到节点间的属性相似度;根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。其中,根据节点的属性计算属性相似度,得到节点间的属性相似度,具体包括:判断节点的属性是离散型属性还是文本型属性;当节点的属性为离散型属性时,节点间的属性相似度为两个节点的属性是否相等,是则判定两个节点的属性相似;当节点的属性为文本型属性时,计算节点间的属性相似度具体如下:输入节点的文本属性值;运用字符匹配的方式对属性文本进行分词处理,并对分词后的词组进行词性标注;将分词处理后的属性文本进行去除停用词处理;对去除停用词处理后的属性文本进行关键词提取,得到节点的关键词;构建节点-关键词矩阵;基于节点-关键词矩阵,计算节点间的关键词相似度作为节点间的属性相似度。其中,基于所述节点间的相似程度,检测所述社交网络的重叠社区,具体包括:根据所述节点间的相似程度,计算所述社交网络中的每个节点的相似势,所述节点的相似势为该节点在节点相似度中的相似影响力;根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心;根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构;通过社区合并的方式对所述初始重叠社区结构进行优化;输出最优重叠社区结构。其中,根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心,具体包括:S21、选取社交网络中任一个未被标记的节点vi并获取其邻居节点集合N(vi),计算邻居节点集合中所有节点的相似势;S22、若p(vj)≤p(vi),则进入步骤S23;否则若p(vj)>p(vi)且vj尚未被标记,则使用vj代替vi后重新执行步骤S21,其中,vj为邻居节点集合N(vi)中的一个节点;S23、将节点vi进行标记后添加至初始聚类中心集合U;S24、若社交网络中仍存在未被标记得节点,则执行步骤S21;否则,执行步骤S25;S25、输出初始聚类中心集合U。其中,根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构,具体包括:S31、设定社交网络G(V,E)的粗糙聚类的上近似权重wup和下近似权重wlow;S32、对于计算p(vi,ui),其中p(ui,vi)为中心节点ui在节点vi处产生的相似势;S3、将节点vi划分至最强簇Cl,且p(vi,Cl)=max{p(v1,ui),p(v2,ui),…,p(v2,ui)};S34、对于计算势能差δ=p(vi,Cl)-p(vi,Cj)。若δ≤α,则将vi划分至Cl与Cj上近似集合的交集中,即否则,将vi划分至Cl的下近似中,即vi∈Cl;S35、对于若即节点vi处于两个簇的边界区域,则重新计算节点在簇中的势能,并设置p(vi,Cl)=max{p(vi,Cm),p(vi,Cn)},p(vi,Cj)=min{p(vi,Cm),p(vi,Cn)};S36、重新计算簇中心;S37、当所有的簇中心趋于稳定时,执行步骤S38;否则返回步骤S34;S38、输出所得到的簇,即社交网络的初始重叠社区结构。其中,通过社区合并的方式对所述初始重叠社区结构进行优化,具体包括:S41、给定社交网络的社区划分C={C1,C2,…,Ck},重叠度阈值Q;S42、选取计算其重叠度over(Cx,Cy)。若over(Cx,Cy)>Q,则执行S43;否则执行S44;S43、将Cy合并至Cx并更新集合C,继续执行步骤S42;S44、当社交前网络中的社区两两之间的重叠度均小于Q,则输出当前社区集合C。其中,所述重叠度的计算方法为:对于两个簇Ci和Cj,其簇重叠度的计算方法定义如下式中min{|Ci|,|Cj|}表示取簇Ci与Cj中节点最小的簇的节点数目。本专利技术的另一个方面,提供一种社交网络中基于节点间相似性的重叠社区检测系统,其特征在于,包括:接收单元,用于接收待检测的社交网络;相似度计算单元,用于计算所述待检测社交网络中节点间的相似程度;重叠社区检测单元,用于基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出单元,用于输出检测的重叠社区的结构。其中,所述相似度计算单元,具体包括:社交相似度计算子单元,用于根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;属性相似度计算子单元,用于根据节点的属性计算属性相似度,得到节点间的属性相似度;相似度计算子单元,用于根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。本专利技术的社交网络中基于节点间相似性的重叠本文档来自技高网
...
社交网络中基于节点间相似性的重叠社区检测方法及系统

【技术保护点】
一种社交网络中基于节点间相似性的重叠社区检测方法,其特征在于,包括:接收待检测的社交网络;计算所述待检测社交网络中节点间的相似程度;基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出检测的重叠社区的结构。

【技术特征摘要】
1.一种社交网络中基于节点间相似性的重叠社区检测方法,其特征在于,包括:接收待检测的社交网络;计算所述待检测社交网络中节点间的相似程度;基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出检测的重叠社区的结构。2.如权利要求1所述的方法,其特征在于,计算所述待检测社交网络中节点间的相似程度,具体包括:根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;根据节点的属性计算属性相似度,得到节点间的属性相似度;根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。3.如权利要求2所述的方法,其特征在于,根据节点的属性计算属性相似度,得到节点间的属性相似度,具体包括:判断节点的属性是离散型属性还是文本型属性;当节点的属性为离散型属性时,节点间的属性相似度为两个节点的属性是否相等,是则判定两个节点的属性相似;当节点的属性为文本型属性时,计算节点间的属性相似度具体如下:输入节点的文本属性值;运用字符匹配的方式对属性文本进行分词处理,并对分词后的词组进行词性标注;将分词处理后的属性文本进行去除停用词处理;对去除停用词处理后的属性文本进行关键词提取,得到节点的关键词;构建节点-关键词矩阵;基于节点-关键词矩阵,计算节点间的关键词相似度作为节点间的属性相似度。4.如权利要求1所述的方法,其特征在于,基于所述节点间的相似程度,检测所述社交网络的重叠社区,具体包括:根据所述节点间的相似程度,计算所述社交网络中的每一个节点的相似势,所述节点的相似势为该节点在节点相似度中的相似影响力;根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心;根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构;通过社区合并的方式对所述初始重叠社区结构进行优化;输出最优重叠社区结构。5.如权利要求4所述的方法,其特征在于,根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心,具体包括:S21、选取社交网络中任一个未被标记的节点vi并获取其邻居节点集合N(vi),计算邻居节点集合中所有节点的相似势;S22、若p(vj)≤p(vi),则进入步骤S23;否则若p(vj)>p(vi)且vj尚未被标记,则使用vj代替vi后重新执行步骤S21,其中,vj为邻居节点集合N(vi)中的一个节点;S23、将节点vi进行标记后添加至初始聚类中心集合U;S24、若社交网络中仍存在未被标记得节点,则执行步骤S21;否则,执行步骤S25;S25、输出初始聚类中心集合U。6.如权利要求4所述的方法,其特征在于,根据所述粗糙聚类的初始...

【专利技术属性】
技术研发人员:丁帅牛锋杨善林孙晓范雯娟胡世康王浩
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1