【技术实现步骤摘要】
一种基于网络拓扑结构和节点属性的社团检测方法
本专利技术涉及PageRank技术、网络拓扑结构分析技术、主题模型技术、属性抽取技术、属性间相似性度量技术、社团检测及聚类算法
,具体地说是一种基于复杂网络拓扑结构和网络节点属性信息的社团检测技术。
技术介绍
近年来复杂网络越来越受到关注,比如社交网络,科学家合著网络,电子邮件网络等。在这些网络中,节点可以表示为一个人或者一篇文章等,网络中属性信息(比如社交网上用户的性别,爱好;论文合著网络上作者的研究领域),网络中节点之间的链接性以及节点具有的属性信息构成了属性图。基于属性图的社团检测的目标是划分这个属性图,使得同一个社团的节点比不同社团之间的节点连接更加紧密,而且同一个社团内部属性尽可能相似。传统的社团检测方法大部分是基于图的拓扑结构(即节点之间的链接关系),基于属性相似。基于拓扑结构的方法主要可以分为三种类型:图划分、图密度、层级结构聚类。图划分通过往网络图中加边或删边的方式达到社团检测目的;图密度基于图的拓扑结构的链接密度进行社团检测;层次结构聚类基于节点间链接的强度将网络划分为若干社团。另外还有基于遗传 ...
【技术保护点】
一种基于网络拓扑结构和节点属性的社团检测方法,其特征在于,所述的方法包括以下步骤:a)节点拓扑结构链接强度分析计算网络中节点基于拓扑结构的重要性,利用节点的局部邻居,重新度量节点之间的链接强度;b)节点属性抽取及相似性度量抽取出属性,然后根据不同的属性类型,计算节点之间每个属性的相似度,最后计算节点之间所有属性的相似度;c)拓扑结构与属性相结合在求得节点之间的链接强度和节点属性相似度之后,利用权重调节因子结合二者,作为节点之间基于拓扑结构和属性的相似度。d)节点聚类首先初始化类别中心节点,然后根据每个节点与类别中心的相似度进行节点类别划分,再更新类别中心节点,最后计算目标函数值判断是否收敛。
【技术特征摘要】
1.一种基于网络拓扑结构和节点属性的社团检测方法,其特征在于,所述的方法包括以下步骤:a)节点拓扑结构链接强度分析计算网络中节点基于拓扑结构的重要性,利用节点的局部邻居,重新度量节点之间的链接强度,包括:首先构建节点的邻接矩阵A,读取整个网络结构后,构建邻接矩阵,若存在节点vi到vj的链接,则对应位置处设置为1,否则为0;再采用PageRank算法计算节点基于拓扑结构的PageRank值,该值作为节点基于全局网络拓扑结构的重要性程度,算法运行后得到每个节点的重要性bi;所述步骤a)中重新度量节点之间的链接强度,还包括:节点vi和vj之间的链接强度为节点vi到vj的链接强度与节点vj到vi的链接强度之和;而节点vi到vj的链接强度为vj的全局重要性bj除以节点vi的所有链出邻居节点的全局重要性之和;同理计算出vj到vi的链接强度;节点vi到vj的链接强度TS(i,j)计算公式如下:其中,NO(i)表示节点vi的链出邻居集,根据上述计算公式,得到节点vi和vj之间的链接强度TsS(i,j),计算如下:TsS(i,j)=TS(i,j)+TS(j,i);b)节点属性抽取及相似性度量抽取出属性,然后根据不同的属性类型,计算节点之间每个属性的相似度,最后计算节点之间所有属性的相似度;c)拓扑结构与属性相结合在求得节点之间的链接强度和节点属性的相似度之后,利用权重调节因子结合二者,作为节点之间基于拓扑结构和属性的相似度;d)节点聚类首先初始化类别中心节点,然后根据每个节点与类别中心的相似度进行节点类别划分,再更新类别中心节点,最后计算目标函数值判断是否收敛。2.根据权利要求1所述的方法,其特征在于所述步骤b)中抽取出属性,具体包括:若节点的描述信息为文本内容,则用潜在狄利克雷LDA主题模型抽取该文本信息的主题分布,然后将该主题分布作为该节点的属性;若节点的描述为离散的或者连续的,则直接将它们作为节点的属性。3.根据权利要求1所述的方法,其特征在于所述步骤b)中计算节点之间每个属性的相似度,具体包括:对于离散型属性,直接比较属性的相同与否;对于连续型属性,利用欧几里得公式计算属性的相似度;对于文本型属性,在得到该文本主题分布后,利用余弦相似度方法度量属性相似度。4.根据权利要求1所述的方法,其特征在于所述步骤b)中节点之间所有属性相似度计算,具体包括:在得到节点之间每个属性的相似度之后,将这些属性相似度统一计算作为节点间所有的属性相似度XS(i,j);计算如下:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。