The invention is applicable to the field of network technology, provides a method and device for mining communities based on statistical model, the method includes: adjacency matrix A reads the symbol of the network N, changes in the scope of setting up community number K [K
【技术实现步骤摘要】
基于统计模型的社区挖掘方法及系统
本专利技术属于网络
,尤其涉及一种基于统计模型的社区挖掘方法及系统。
技术介绍
与仅能表示个体间是否存在关系的无符号网络相比,符号网络能够将单一的存在关系扩展为正、负关系。比如,社交网络中的正链接表示友好、喜欢、信任等关系,负链接表示敌对、不喜欢、不信任等关系;政治网络中的正链接表示政治同盟关系、负链接表示政治敌对关系等。这些增加的符号信息有助于更深入地了解网络背后隐含的规律。社区作为复杂网络中普遍存在的一类重要结构模式,对于理解网络/系统的功能及发展演化具有重要的意义。对于社区发现问题,现有技术基于不同的原理提出了大量的社区发现算法。比如基于介数的算法、基于信息论的算法、基于模块度的算法、基于模型的算法等。然而,这些社区发现算法都是基于无符号网络提出的,更多地关注链接的密度而忽视了链接的符号,难以直接应用于带有正、负链接的符号网络。此外,现有技术还提出了专门用于符号网络的社区发现算法。比如:基于frustration的算法,通过最小化符号网络社区内负链接与社区间正链接的数量之和进行社区划分;基于改进模块度(modularity)的算法,对适用于无符号网络的模块度函数进行改进使之可以处理网络链接的符号;基于多目标优化的算法,通过同时优化多个目标函数实现对符号网络的社区发现,等等。然而,上述符号网络社区发现算法都归属于优化算法或启发算法,其检测精度依赖于所设计的优化目标函数或启发策略的质量,社区挖掘的准确度不高。
技术实现思路
鉴于此,本专利技术实施例提供了一种基于统计模型的社区挖掘方法及系统,以提高对符号网络进行社区挖掘 ...
【技术保护点】
一种基于统计模型的社区挖掘方法,其特征在于,所述社区挖掘方法包括:读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[K
【技术特征摘要】
1.一种基于统计模型的社区挖掘方法,其特征在于,所述社区挖掘方法包括:读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin,其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;初始化每一个社区数K对应的统计模型NMK,将所述统计模型NMK与所述符号网络N拟合,并计算所述统计模型NMK的选择标准HK;比较所有统计模型NMK的选择标准HK,选取选择标准HK最大的统计模型NMK作为最优模型NMoptim;根据所述最优模型NMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。2.如权利要求1所述的基于统计模型的社区挖掘方法,其特征在于,所述初始化每一个社区数K对应的统计模型NMK包括:对于变化范围[Kmin,Kmax]内的每一个社区数K,构建与所述社区数K对应的统计模型NMK=(n,K,Z,π,Ω);初始化统计模型NMK中的第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ以及指示变量Z对应的近似分布参数τ;其中,第一参数π为K×K×3维向量,表示社区间连接概率,所述第一参数π中的每一个元素πlq包括三个分量,且满足:0<l≤K,0<q≤K,分量πlq1表示第l个社区与第q个社区间节点存在一条正链接的概率,分量πlq2表示第l个社区与第q个社区间节点没有链接的概率,分量πlq3表示第l个社区与第q个社区间节点存在一条负链接的概率;第二参数Ω为K维向量,表示节点属于社区的概率,所述第二参数Ω中的每一个元素ωk满足:0<k≤K;所述指示变量Z为n×K维向量,用于指示每个节点i所属的社区;该指示变量Z的每一行中只有一个元素zik为1,其余元素zik为0,0<i≤n,0<k≤K。3.如权利要求2所述的基于统计模型的社区挖掘方法,其特征在于,所述将所述统计模型NMK与所述符号网络N拟合,并计算所述统计模型NMK的选择标准HK包括:A:将当前的统计模型NMK与所述符号网络N拟合,按照预设计算公式更新所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ;B:根据更新后的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ计算所述统计模型NMK的选择标准HK,并计算所述选择标准HK与上一次迭代计算得到的选择标准HK之间的差值;C:比较所述差值与预设阈值,若所述差值小于所述预设阈值,则以本次更新的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为所述统计模型NMK的最优参数;否则,返回步骤A进行下一次迭代计算。4.如权利要求3所述的基于统计模型的社区挖掘方法,其特征在于,所述选择标准HK的计算公式为:其中,τik表示指示变量Z中元素zik对应的近似分布参数,ηlqh表示第一参数π中元素πlqh对应的近似分布参数,表示第一参数π中元素πlqh对应的先验分布参数,ρ表示第二参数Ω中元素ωk对应的近似分布参数,表示第二参数Ω中元素ωk对应的先验分布参数。5.如权利要求1至4任一项所述的基于统计模型的社区挖掘方法,其特征在于,所述根据所述最优模型NMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n包括:根据所述最优模型NMoptim的指示变量Z的近似分布参数τ,确定所述符号网络N中每个节点i所属的社区,0<i≤n;其中,所述节点i属于近似分...
【专利技术属性】
技术研发人员:赵学华,杨博,陈慧灵,刘学艳,
申请(专利权)人:深圳信息职业技术学院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。