一种在线社会网络多尺度社区发现方法技术

技术编号：15518492 阅读：76 留言：0更新日期：2017-06-04 08:41

针对大尺度在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素，本发明专利技术提出了一种在线社会网络多尺度社区发现方法，该方法的一个重要特点是融合了用户兴趣和内聚度，该挖掘方法主要包括3个步骤：1)网络粗化过程，2)粗化网络上基于概率模型的社区标签初始化，3)基于图上半监督学习的社区标签的估计。该方法的优点在于通过粗化过程极大地降低了网络的大小，使得用于社区检测概率模型具有很小的参数空间，大大增大了寻找全局最优解的可能性并降低了计算复杂度；其次，结合了用户兴趣和内聚度能够全面地对社区进行定义，本发明专利技术的贡献在于提出了一种基于多层次的社区挖掘方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种在线社会网络多尺度社区发现方法
本专利技术属于计算机应用
，涉及数据挖掘、在线社会网络以及机器学习，特别涉及一种在线社会网络多尺度社区发现方法。
技术介绍
在线社交网络中蕴含着大量潜在的社区结构，这些社区内的节点具有相似的特性，在网络中扮演相似的角色，以其为单位的粗粒度网络描述，可简化对整个网络的功能、交互及其演化的研究。因此，识别社区结构有助于我们更深入地了解网络的本质，认识网络结构与其功能之间的关系。社区检测通常是指将网络结点和边划分至不同的集合。社区发现的关键是社区定义，不同社区结构的定义导致不同的社区发现方法。传统意义上，人们将社区定义为团内节点连接稠密、团间节点连接稀疏的结构。然而在实际网络中还存在这样的节点集，它们具有相似的链接模式，但它们之间是否存在稠密链接不确定，此类有相似链接模式的结构称为广义社区(兼容传统社区)。传统的社区发现方法，如谱平分法、分层聚类、Girvan–Newman(GN)算法、派系过滤等，采用启发式的度量衡量传统社区结构的优劣，缺乏严格的理论基础；同时，此类方法在处理具有重叠的社区问题上，也缺乏活力。近年来，出现了一些基于统计推理的社区发现方法。该类方法可识别网络中结构对等和规律对等的结构，利用生成模型拟合观测到的网络来获得节点的划分及网络的结构，具有完备的概率理论基础和解释，能更好地满足社区发现算法的标准。与此同时，基于统计推理的社区发现方法，能准确地处理具有重叠(overlap)的社区发现问题。Hastings等人采用的物理种植分区模型是一种特殊的统计块模型(SBM)，将社区划分问题转化为统计推理问题；随后...
一种在线社会网络多尺度社区发现方法

【技术保护点】
一种在线社会网络多尺度社区发现方法，其特征在于，包括如下步骤：1)基于连接密度与连接模式的大尺度网络的粗化基于贪婪的

【技术特征摘要】
1.一种在线社会网络多尺度社区发现方法，其特征在于，包括如下步骤：1)基于连接密度与连接模式的大尺度网络的粗化基于贪婪的-阶结点合并算法，将输入的大尺度网络通过逐层粗化的方式得到粗化网络其中L表示粗化的最大层数；2)粗化网络上的社区发现初始化基于NMM算法对最上层的粗化网络进行社区发现初始化，得到粗略的社区发现结果QL；3)考虑光滑性假设的社区发现将得到的社区发现初始结果QL通过逐层计算，得到大尺度输入网络上的社区检测结果Q0。2.根据权利要求1所述在线社会网络多尺度社区发现方法，其特征在于，所述步骤1)中，在网络粗化过程中，采用阶合并策略：在一次粗化过程中，对于中的每一个超节点由中不超过个节点结合而成，相当于一个上界；另一方面，本质上也是粗化速率和整体算法精度的一个权衡。3.根据权利要求2所述在线社会网络多尺度社区发现方法，其特征在于，所述步骤1)中，给定网络按如下步骤进行粗化：step1：随机选取没有合并过的结点v，以v为初始节点构建结点集合step2：从v的邻域结点中随机选择结点u，若Sim(u,U)>δ，δ为提前设定的阈值，则根据此做法不断扩充直到或者结点v的邻域集合被选择完毕，则终止的合并，将其用中的超结点代表；step3：重新跳至step1，或者所有结点均被合并完毕，则跳至下一步；step4：合并中的边及权重，形成中的边及权重，对于超结点和分别对应于结点集合和则其中，分别表示中节点到的边的权值以及中节点到的边的权值；Sim(u,U)定义为结合连接密度和连接模式的相似度：其中，表示基于连接模式的结点v和结点集合U之间的相似度；表示基于连接密度的结点v和结点集合U之间的相似度；⊕是操作符号，表示取最大值、取几何平均值或者取算术平均值；进一步地：PairSimc(v,u)表示基于连接模式的结点v和结点u之间的相似度，参照公式PairSimc(vi,vj)＝sig(cos(∠(pi,pj)))进行计算，sig(·)表示sigmoid函数，将相似度映射至(0,1)范围内，令n表示网络中的节点总量，pi＝(βi,j)n×1，反映了结点vi与网络内所有结点的连接规律，表示连接模式，反映结点vi与结点vj之间的连接规律，其中wij表示节点vi到vj的边的权值，表示节点vi的出度；表示两端结点均在内部的边的集合，表示只有一端结点在内部的边的集合，4.根据权利要求1所述在线社会网络多尺度社区发现方法，其特征在于，所述步骤2)中，基于NMM算法对最上层的粗化网...

【专利技术属性】
技术研发人员：杜友田，苏畅，管晓宏，王倩，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人