The invention discloses a social network based on nodes including similar overlapping community detection method and system of the method: receiving to detect social network; calculate the detected social network nodes in the similar degree; the degree of similarity between the nodes based on the measurement, inspection and overlapping community social networks structure; overlapping community detection of output. Similar overlapping community detection method based on the nodes in the social network, the social network environment combines the similarity calculation method of network structure information and node attribute information, and then proposes a fusion node similarity of overlapping community discovery algorithm, in order to get high quality community network structure and double node preference cohesion.
【技术实现步骤摘要】
社交网络中基于节点间相似性的重叠社区检测方法及系统
本专利技术涉及网络数据处理
,尤其涉及一种社交网络中基于节点间相似性的重叠社区检测方法及系统。
技术介绍
现实世界中存在的许多复杂系统大多可以用复杂网络进行描述。例如:新陈代谢网,蛋白质交互网,基因网络,科学家合著网络,电力网,航空网以及社交网络等等。一直以来人们对于复杂网络的研究从未间断,近些年来,由于互联网的快速发展使得人们越来越关注复杂网络,尤其是社交网络,并进行了大量的研究工作。一般而言,复杂网络由于自身内部结构较为复杂,直接对整个网络进行研究是一件十分困难的事,因此人们一般通过研究网络的社区结构从而更好地理解整个网络。所谓社区,是节点的集合,在社区内部节点连接很紧密,但是属于不同社区的节点连接则比较稀疏。社区结构普遍存在于复杂网络中,社交网络作为复杂网络的一类也已被证明网络内部具有社区结构,很多用于复杂网络的社区发现算法也可用于社交网络。现有的关于社区发现问题的处理方法主要分为了以下三类。一为基于节点连边的方式,即通过提取网络中节点之间的连边,将社区发现问题转化为图论等问题进行处理。此类方法没有考虑到社交网络中环境中节点所具有的属性信息和潜在的兴趣特征。一为基于节点内容的方式,通过提取网络中节点的自身属性信息和潜在的兴趣特征,将社区发现问题转化为节点聚类等问题进行处理。此类方法忽略了网络中极为重要的结构拓扑信息。还有一种综合方法,将网络结构与节点信息相结合,分别基于网络结构和节点信息对同一网络进行社区发现,从而得到两种不同的社区结构,在此基础之上使用一些特定的方法将两种社区进行融合,最终得 ...
【技术保护点】
一种社交网络中基于节点间相似性的重叠社区检测方法,其特征在于,包括:接收待检测的社交网络;计算所述待检测社交网络中节点间的相似程度;基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出检测的重叠社区的结构。
【技术特征摘要】
1.一种社交网络中基于节点间相似性的重叠社区检测方法,其特征在于,包括:接收待检测的社交网络;计算所述待检测社交网络中节点间的相似程度;基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出检测的重叠社区的结构。2.如权利要求1所述的方法,其特征在于,计算所述待检测社交网络中节点间的相似程度,具体包括:根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;根据节点的属性计算属性相似度,得到节点间的属性相似度;根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。3.如权利要求2所述的方法,其特征在于,根据节点的属性计算属性相似度,得到节点间的属性相似度,具体包括:判断节点的属性是离散型属性还是文本型属性;当节点的属性为离散型属性时,节点间的属性相似度为两个节点的属性是否相等,是则判定两个节点的属性相似;当节点的属性为文本型属性时,计算节点间的属性相似度具体如下:输入节点的文本属性值;运用字符匹配的方式对属性文本进行分词处理,并对分词后的词组进行词性标注;将分词处理后的属性文本进行去除停用词处理;对去除停用词处理后的属性文本进行关键词提取,得到节点的关键词;构建节点-关键词矩阵;基于节点-关键词矩阵,计算节点间的关键词相似度作为节点间的属性相似度。4.如权利要求1所述的方法,其特征在于,基于所述节点间的相似程度,检测所述社交网络的重叠社区,具体包括:根据所述节点间的相似程度,计算所述社交网络中的每一个节点的相似势,所述节点的相似势为该节点在节点相似度中的相似影响力;根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心;根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构;通过社区合并的方式对所述初始重叠社区结构进行优化;输出最优重叠社区结构。5.如权利要求4所述的方法,其特征在于,根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心,具体包括:S21、选取社交网络中任一个未被标记的节点vi并获取其邻居节点集合N(vi),计算邻居节点集合中所有节点的相似势;S22、若p(vj)≤p(vi),则进入步骤S23;否则若p(vj)>p(vi)且vj尚未被标记,则使用vj代替vi后重新执行步骤S21,其中,vj为邻居节点集合N(vi)中的一个节点;S23、将节点vi进行标记后添加至初始聚类中心集合U;S24、若社交网络中仍存在未被标记得节点,则执行步骤S21;否则,执行步骤S25;S25、输出初始聚类中心集合U。6.如权利要求4所述的方法,其特征在于,根据所述粗糙聚类的初始...
【专利技术属性】
技术研发人员:丁帅,牛锋,杨善林,孙晓,范雯娟,胡世康,王浩,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。