一种基于平衡多标签传播的重叠组织架构挖掘方法及装置制造方法及图纸

技术编号:22261500 阅读:37 留言:0更新日期:2019-10-10 14:26
本发明专利技术公开了一种基于平衡多标签传播的重叠组织架构挖掘方法及装置,该方法包括:1)读取并构造社交网络图;2)标签分配过程;3)过滤邻居节点过程;4)执行标签传播过程;5)获得重叠组织架构挖掘结果过程。本发明专利技术定义了组织架构归属倾向度S,在标签传播过程之前,对每个节点的邻居节点进行过滤,过滤掉对中心节点确定标签帮助较小的部分邻居节点,即组织架构归属倾向度S较小的邻居节点。当重叠组织架构结构较复杂、节点之间连接密集时,通过过滤部分邻居节点,可有效提升标签传播的速度,提高组织架构挖掘的效率。

An Overlapped Organization Architecture Mining Method and Device Based on Balanced Multi-Label Propagation

【技术实现步骤摘要】
一种基于平衡多标签传播的重叠组织架构挖掘方法及装置
本专利技术涉及复杂网络组织架构挖掘即复杂网络社团发现
,具体涉及一种基于平衡多标签传播的重叠组织架构挖掘方法及装置。
技术介绍
复杂网络中有着丰富的信息与模式,而以人为节点、人与人之间关系为边构建的社交网络中同样包含着诸如组织架构结构、成员间关系等信息。因此通过挖掘社交网络中的组织架构结构,即社团结构,能获得大量有价值的信息,这在理论上与实际应用中都是十分有益的。近10年来,已经有很多复杂网络社团挖掘方法被提出,包括经典的GN算法、模块度优化算法、基于动力学的方法和基于标签传播的方法等。基于标签传播的社团发现算法由于其具有近乎线性的时间复杂度而被广泛应用。标签传播算法最早是在2002年被提出的,它是一种基于图的半监督学习方法,其算法基本思想是用已标记节点的标签信息去预测其他还未标记节点的标签信息。较早的RAK算法、LPAm算法等属于非重叠社团发现方法,但是这些算法所挖掘得到的社团结构都是非重叠的,也就是说每个节点只能从属于某一个社团,社团之间不会存在重叠结构。显然这与现实社会中网络的情况是不相符的,因此后续相继发展出派系过滤算法(CPM)、EAGLE算法、GCE算法、LFK算法、COPRA算法等重叠社团发现方法。COPRA算法中,节点x会根据它的邻居点集的标签来更新自己的标签。在标签更新的过程中若存在多个可选标签的话,算法就会随机选择其中的v个标签来作为更新结果,v即用来限制每个节点可以拥有的标签数目的参数,设置参数v避免了所有的标签都更新为相同的结果。但已有的重叠组织架构标签传播算法在各节点邻居节点过多时,标签的传播过程会较为复杂。因此,如何解决这一问题,便成为了本领域技术人员的一个重要研究方向。
技术实现思路
本专利技术根据上述技术背景,提供了一种基于平衡多标签传播的重叠组织架构挖掘方法及装置,其能够过滤掉不必要的邻居节点,从而有效提高标签传播的效率。第一方面,本专利技术提供了一种基于平衡多标签传播的重叠组织架构挖掘方法,包括以下步骤:步骤1:读取社交网络数据,构造以用户为节点,用户之间的关系为边的社交网络图;步骤2:为所述社交网络图中的每个节点分配多个标签,每个节点的多个标签组成该节点的标签集;步骤3:按照随机顺序遍历所述社交网络图中的各节点,对每个待确定标签节点,即中心节点,遍历其邻居节点,获取各所述邻居节点的标签集,根据所述标签集中的信息过滤掉所述邻居节点中的部分节点;步骤4:根据所述邻居节点过滤后保留下的邻居节点,计算所述中心节点的平衡归属系数,根据所述平衡归属系数的值保留所述中心节点的部分标签;步骤5:继续执行步骤3和步骤4,直至各节点的标签集不再变化,最终得到重叠组织架构挖掘的结果。优选地,在上述步骤1中,所述社交网络图的数学模型为G=(V,E);其中,V代表节点的集合,E代表连接边的集合。优选地,在上述步骤2中,所述标签集中包含k个标签,各节点的标签集的k值不等,即各节点归属的组织架构的个数不受限制。更优选地,在上述步骤2中,所述标签集中的多个标签均为形式为(c,b)的二元数对,其中c是组织架构标识符,b为归属系数,表示节点与组织架构的关系强度。优选地,上述步骤3过滤邻居节点的具体步骤为:步骤3-1:按照随机顺序遍历所述社交网络图中的各节点,各节点均为待确定标签节点,也可表示为中心节点;找到各中心节点的邻居节点集合N(x);步骤3-2:获取所述邻居节点集合N(x)中各邻居节点的标签集((c1,b1),(c2,b2),...,(ck,bk)},其中b1+b2+…+bk=1;步骤3-3:根据获得的所述中心节点各邻居节点的标签集,计算出各所述邻居节点的组织架构归属倾向度S,定义为:其中定义为:邻居节点标签集中所有的归属系数的平均值;选择所述中心节点的邻居节点中组织架构归属倾向度S较小的部分节点,将其过滤,即使其在标签传播过程中不起传播作用;若各邻居节点的S值相等,则将标签集的k值较大的邻居节点过滤掉。更优选地,在步骤3-3中,所述组织架构归属倾向度S表征的是所述邻居节点中某一节点对各个组织架构的归属倾向性,S值较低的邻居节点对各个组织架构的归属性差别不大,不能被明确判断属于哪个或哪些组织架构,无法为中心节点的标签的确定提供较多帮助,因此可将其过滤。优选地,上述步骤4执行标签传播的具体步骤为:步骤4-1:累加归属系数:将所有所述邻居节点的标签集中相同组织架构标识符c对应的归属系数b相加,得到中心节点的标签集{(c01,b01),(c02,b02),…,(com,bom)};步骤4-2:过滤归属系数:找到所述中心节点的标签集中的最大归属系数bmax及其相应标签cmax,设定阈值参数p,若所述中心节点的标签集中某个归属系数b满足如下公式:则此归属系数及其组织架构标识符c被保留下来,否则将被过滤掉;过滤后所述中心节点的标签集变成{(c01,b01),(c02,b02),…,(con,bon)},其中n≤m,p是阈值参数,p∈(0,1];步骤4-3:归一化归属系数:经过所述步骤4-2后保留的归属系数不能满足相加和为1,要对其进行归一化;其中,归一化公式为:更优选地,在步骤4-2中,所述p是阈值参数,p∈(0,1],表示所述中心节点的标签集中某个归属系数与标签集中最大归属系数之间的均衡度,p的值视所述均衡度的高低设定,均衡度高则p值较大,均衡度低则p值较小。第二方面,本专利技术提供了一种基于平衡多标签传播的重叠组织架构挖掘装置,包括:输入模块:用于读取社交网络数据;构造模块:用于根据读取的社交网络数据,构造以用户为节点,用户之间的关系为边的社交网络图;标签分配模块:用于为所述社交网络图中的每个节点分配多个标签,每个节点的多个标签组成该节点的标签集;过滤邻居节点模块:用于按照随机顺序遍历所述社交网络图中的各节点,对每个中心节点,遍历其邻居节点,获取各所述邻居节点的标签集,根据所述标签集中的信息过滤掉所述邻居节点中的部分节点;执行标签传播模块:用于根据所述邻居节点过滤后保留下的邻居节点,计算所述中心节点的平衡归属系数,根据所述平衡归属系数的值保留所述中心节点的部分标签;判定模块:用于判定各节点的标签集是否再发生变化,以对下一步骤进行选择;输出模块:用于得到重叠组织架构挖掘的结果。本专利技术提供的上述技术方案的有益效果至少包括:与现有技术相比,本专利技术基于多标签传播的平衡社团发现算法(BMLPA)在COPRA算法的基础上重新设计了标签的更新策略,通过设定阈值p来控制每个节点可以拥有的标签数目,因此不需要设置参数v,也就是说挖掘的重叠社团的数目不再受参数v的限制。同时,本专利技术定义了组织架构归属倾向度S,在标签传播过程之前,对每个节点的邻居节点进行过滤,过滤掉对中心节点确定标签帮助较小的部分邻居节点,即组织架构归属倾向度S较小的邻居节点。当重叠组织架构结构较复杂、节点之间连接密集时,各节点的邻居节点较多,这会导致标签传播过程的效率低下,耗时较长。本专利技术通过过滤部分邻居节点,可有效提升标签传播的速度,提高组织架构挖掘的效率。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说本文档来自技高网
...

【技术保护点】
1.一种基于平衡多标签传播的重叠组织架构挖掘方法,其特征在于:包括以下步骤:步骤1:读取社交网络数据,构造以用户为节点,用户之间的关系为边的社交网络图;步骤2:为所述社交网络图中的每个节点分配多个标签,每个节点的多个标签组成该节点的标签集;步骤3:按照随机顺序遍历所述社交网络图中的各节点,对每个中心节点,遍历其邻居节点,获取各所述邻居节点的标签集,根据所述标签集中的信息过滤掉所述邻居节点中的部分节点;步骤4:根据所述邻居节点过滤后保留下的邻居节点,计算所述中心节点的平衡归属系数,根据所述平衡归属系数的值保留所述中心节点的部分标签;步骤5:继续执行步骤3和步骤4,直至各节点的标签集不再变化,最终得到重叠组织架构挖掘的结果。

【技术特征摘要】
1.一种基于平衡多标签传播的重叠组织架构挖掘方法,其特征在于:包括以下步骤:步骤1:读取社交网络数据,构造以用户为节点,用户之间的关系为边的社交网络图;步骤2:为所述社交网络图中的每个节点分配多个标签,每个节点的多个标签组成该节点的标签集;步骤3:按照随机顺序遍历所述社交网络图中的各节点,对每个中心节点,遍历其邻居节点,获取各所述邻居节点的标签集,根据所述标签集中的信息过滤掉所述邻居节点中的部分节点;步骤4:根据所述邻居节点过滤后保留下的邻居节点,计算所述中心节点的平衡归属系数,根据所述平衡归属系数的值保留所述中心节点的部分标签;步骤5:继续执行步骤3和步骤4,直至各节点的标签集不再变化,最终得到重叠组织架构挖掘的结果。2.根据权利要求1所述的基于平衡多标签传播的重叠组织架构挖掘方法,其特征在于:在步骤1中,所述社交网络图的数学模型为G=(V,E);其中,V代表节点的集合,E代表连接边的集合。3.根据权利要求1所述的基于平衡多标签传播的重叠组织架构挖掘方法,其特征在于:在步骤2中,所述标签集中包含k个标签,各节点的标签集的k值不等。4.根据权利要求1或3所述的基于平衡多标签传播的重叠组织架构挖掘方法,其特征在于:在步骤2中,所述标签集中的多个标签均为形式为(c,b)的二元数对,其中c是组织架构标识符,b为归属系数,表示节点与组织架构的关系强度。5.根据权利要求1所述的基于平衡多标签传播的重叠组织架构挖掘方法,其特征在于:在步骤3中,按照随机顺序遍历所述社交网络图中的各节点,对每个中心节点,遍历其邻居节点,获取各所述邻居节点的标签集,根据所述标签集中的信息过滤掉所述邻居节点中的部分节点的具体步骤为:步骤3-1:按照随机顺序遍历所述社交网络图中的各节点,各节点均为待确定标签节点,也表示为中心节点;找到各中心节点的邻居节点集合N(x);步骤3-2:获取所述邻居节点集合N(x)中各邻居节点的标签集{(c1,b1),(c2,b2),…,(ck,bk)},其中b1+b2+…+bk=1;步骤3-3:根据获得的所述中心节点各邻居节点的标签集,计算出各所述邻居节点的组织架构归属倾向度S,定义为:其中定义为:邻居节点标签集中所有的归属系数的平均值;选择所述中心节点的邻居节点中组织架构归属倾向度S较小的部分节点,将其过滤;若各邻居节点的S值相等,则将标签集的k值较大的邻居节点过滤掉。6.根据权利...

【专利技术属性】
技术研发人员:蔡晓东陈思
申请(专利权)人:桂林远望智能通信科技有限公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1