一种节点信息和标签传播的重叠社区划分预测方法及系统技术方案

技术编号:37772552 阅读:10 留言:0更新日期:2023-06-06 13:38
本发明专利技术涉及一种节点信息和标签传播的重叠社区划分预测方法及系统,属于计算机领域。该方法对获取的复杂网络数据集中的用户属性信息进行预处理,对获取到的数据集中的关系数据集进行处理,完成用户网络拓扑结构的构建和生成特征网络;将用户关键属性间的相关性转化为属性模块度矩阵,将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵,再将加权模块度矩阵分解得到用户网络的加权向量化表示;根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力;在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;使用用户标签影响度和用户重要度进行社区发现,获取社区;本发明专利技术对复杂网络社区划分预测结果更可靠。区划分预测结果更可靠。区划分预测结果更可靠。

【技术实现步骤摘要】
一种节点信息和标签传播的重叠社区划分预测方法及系统


[0001]本专利技术属于计算机领域,涉及一种节点信息和标签传播的重叠社区划分预测方法及系统。

技术介绍

[0002]复杂网络广泛存在于人类生活的各个方面,如社会网络、生物网络、工程网络、信息网络等。在上世界90年代,Watts和Strogatz两位学者在Nature这个顶级的期刊发表了为小世界网络模型,然后Albert和Barabasi在Science这个顶级期刊发表了无标度网络模型。因此,复杂网络这一新学科分支出现了。此外复杂的社交网络具有很强的社会效应。这种社会效应的表现为种类繁多但联系紧密的群体,群体内个体之间的接触相对频繁。如果一个个体被分成多个群体,那就是重叠社区检测。
[0003]传统的社区检测方法只关注网络拓扑结构信息,这种方法设计都是通过分析个体之间的关系进行社区划分,其发现的社区内部的关系紧密,而不同社区间的关系较为稀疏,但是这种方法并未考虑到网络中用户本身携带的属性信息。目前现有的许多经典的重叠社区检测方法并没有利用到网络中的用户属性信息。因此,它们还没有被用来检测网络中的重叠社区。如何在利用网络中的用户属性信息进行预测,是当前急需解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种节点信息和标签传播的重叠社区划分预测方法及系统。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种节点信息和标签传播的重叠社区划分预测方法,该方法包括以下步骤:
[0007]S1:对获取的复杂网络数据集中的用户属性信息进行预处理,包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户网络拓扑结构的构建和生成特征网络;
[0008]S2:根据S1中获取到的特征网络进行特征处理,从用户属性周围的整体分布中捕获关于用户的关键属性信息,然后将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到用户网络的加权向量化表示;
[0009]S3:根据S2获取到的用户关键属性信息,用贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性

影响力的贝叶斯网络模型,根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力,得到网络中所有用户影响力并按升序排序;
[0010]S4:根据S3获取到的网络中所有用户影响力信息,利用用户先验属性和用户总影
响力计算出网络用户重要度,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;
[0011]S5:根据步骤S4中得到的用户标签影响度和用户重要度计算方式,进行社区发现,获取社区。
[0012]可选的,所述S1中对数据集的预处理的操作,包括以下步骤:
[0013]S11:从数据集中获取每个用户发布的短文本属性信息,针对于这些短文本属性信息,删除非文本部分包括html标签、非英文字符、标点符号、语气助词和借代词,对LDA模型语料库使用自有分词技术;
[0014]S12:对数据集中用户关系进行处理,接着对数据集中的用户进行活跃性判断,如果是用户与其他所有用户没有任何联系,则判定为不活跃用户以及对不活跃用户的剔除。
[0015]可选的,所述S2的具体步骤包括:
[0016]S21:对用户属性信息采用随机行走,获得用户特征对的经验统计量,然后给出观测特征的联合概率的无偏估计,从中提取用户关键属性信息并进行归一化处理;
[0017]S22:计算用户关键属性信息之间的Pearson相关系数的相似度,Pearson相关系数的值的绝对值越接近1,则说明线性关系越强,其中接近+1为正相关性越强,接近

1是负相关性越强;然后将得到的相似度构建为属性模块度矩阵,在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵;
[0018]S23:获取到上面的加权模块度矩阵,将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量,结合用户向量化表示,得到用户之间带权的网络矩阵。
[0019]可选的,所述S3中,根据贝叶斯概率公式,使用乘法原理将各个属性影响力相乘得到最后的用户影响力,用户影响力计算公式为:
[0020]P(lnf)=Πp(lnf|Attr)
[0021]其中,P(lnf)表示用户影响力,p(lnf|Attr)表示用户各个属性的影响力。
[0022]可选的,所述S4具体包括:
[0023]S41:基于节点先验属性的节点归一化重要性是不够的,更重要的用户与用户之间存在紧密的联系;提出基于用户先验属性和用户影响力算法的用户重要性计算方式为:
[0024][0025]其中,lnf(i)代表用户i的先验重要性,β∈[0,1]用于度量相邻用户对用户i的影响程度;N(i)表示用户i的邻域集,d(j)为用户j的度;
[0026]S42.根据用户影响力和用户重要性,得到网络中用户标签重要度计算公式为:
[0027][0028]LIS(i,l)表示对用户i在标签l重要度,N
l
(i)表示用户i周围标签l的集合。
[0029]可选的,所述S5中,根据得到的用户标签影响度和用户重要度公式,进行社区发现,具体步骤包括:
[0030]S51:复杂网络中每个用户使用唯一的社区标签进行初始化;
[0031]S52:计算网络中每个用户的用户重要度和标签影响度,并初始化迭代次数值为1;
[0032]S53:标签按照用户重要度大小顺序通过网络传播,在传播的每一次迭代中,每个
用户都将其标签更新为其最大邻居数所属的标签,当用户的相邻节点上的多个标签数量达到最大值时,选择用户标签影响度最大的标签更新用户;
[0033]S54:迭代次数达到最大迭代次数或每个用户的标签与其大多数相邻用户的标签相同,则将标签相同的用户置于同一社区中,运行结束;否则,设置迭代次数值加1,转步骤S53。
[0034]一种节点信息和标签传播的重叠社区划分预测系统,该系统包括:
[0035]数据预处理模块,用于获取复杂网络数据集中的用户属性信息并进行预处理,对获取到的数据集中的关系数据集进行处理,完成用户网络拓扑结构的构建和生成特征网络;
[0036]网络加权向量化处理模块,用于将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到了用户网络的加权向量化表示;
[0037]贝叶斯网络模型建立模块,根据贝叶斯网络模型进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:该方法包括以下步骤:S1:对获取的复杂网络数据集中的用户属性信息进行预处理,包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户网络拓扑结构的构建和生成特征网络;S2:根据S1中获取到的特征网络进行特征处理,从用户属性周围的整体分布中捕获关于用户的关键属性信息,然后将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到用户网络的加权向量化表示;S3:根据S2获取到的用户关键属性信息,用贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性

影响力的贝叶斯网络模型,根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力,得到网络中所有用户影响力并按升序排序;S4:根据S3获取到的网络中所有用户影响力信息,利用用户先验属性和用户总影响力计算出网络用户重要度,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;S5:根据步骤S4中得到的用户标签影响度和用户重要度计算方式,进行社区发现,获取社区。2.根据权利要求1所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S1中对数据集的预处理的操作,包括以下步骤:S11:从数据集中获取每个用户发布的短文本属性信息,针对于这些短文本属性信息,删除非文本部分包括html标签、非英文字符、标点符号、语气助词和借代词,对LDA模型语料库使用自有分词技术;S12:对数据集中用户关系进行处理,接着对数据集中的用户进行活跃性判断,如果是用户与其他所有用户没有任何联系,则判定为不活跃用户以及对不活跃用户的剔除。3.根据权利要求2所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S2的具体步骤包括:S21:对用户属性信息采用随机行走,获得用户特征对的经验统计量,然后给出观测特征的联合概率的无偏估计,从中提取用户关键属性信息并进行归一化处理;S22:计算用户关键属性信息之间的Pearson相关系数的相似度,Pearson相关系数的值的绝对值越接近1,则说明线性关系越强,其中接近+1为正相关性越强,接近

1是负相关性越强;然后将得到的相似度构建为属性模块度矩阵,在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵;S23:获取到上面的加权模块度矩阵,将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量,结合用户向量化表示,得到用户之间带权的网络矩阵。4.根据权利...

【专利技术属性】
技术研发人员:刘洪涛李智强叶嘉奇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1