一种基于平衡多标签传播的重叠组织架构挖掘方法及装置制造方法及图纸

技术编号：22261500 阅读：37 留言：0更新日期：2019-10-10 14:26

本发明专利技术公开了一种基于平衡多标签传播的重叠组织架构挖掘方法及装置，该方法包括：1)读取并构造社交网络图；2)标签分配过程；3)过滤邻居节点过程；4)执行标签传播过程；5)获得重叠组织架构挖掘结果过程。本发明专利技术定义了组织架构归属倾向度S，在标签传播过程之前，对每个节点的邻居节点进行过滤，过滤掉对中心节点确定标签帮助较小的部分邻居节点，即组织架构归属倾向度S较小的邻居节点。当重叠组织架构结构较复杂、节点之间连接密集时，通过过滤部分邻居节点，可有效提升标签传播的速度，提高组织架构挖掘的效率。

An Overlapped Organization Architecture Mining Method and Device Based on Balanced Multi-Label Propagation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于平衡多标签传播的重叠组织架构挖掘方法及装置
本专利技术涉及复杂网络组织架构挖掘即复杂网络社团发现
，具体涉及一种基于平衡多标签传播的重叠组织架构挖掘方法及装置。
技术介绍
复杂网络中有着丰富的信息与模式，而以人为节点、人与人之间关系为边构建的社交网络中同样包含着诸如组织架构结构、成员间关系等信息。因此通过挖掘社交网络中的组织架构结构，即社团结构，能获得大量有价值的信息，这在理论上与实际应用中都是十分有益的。近10年来，已经有很多复杂网络社团挖掘方法被提出，包括经典的GN算法、模块度优化算法、基于动力学的方法和基于标签传播的方法等。基于标签传播的社团发现算法由于其具有近乎线性的时间复杂度而被广泛应用。标签传播算法最早是在2002年被提出的，它是一种基于图的半监督学习方法，其算法基本思想是用已标记节点的标签信息去预测其他还未标记节点的标签信息。较早的RAK算法、LPAm算法等属于非重叠社团发现方法，但是这些算法所挖掘得到的社团结构都是非重叠的，也就是说每个节点只能从属于某一个社团，社团之间不会存在重叠结构。显然这与现实社会中网络的情况是不相符的，因此后续相继发展出派系过滤算法(CPM)、EAGLE算法、GCE算法、LFK算法、COPRA算法等重叠社团发现方法。COPRA算法中，节点x会根据它的邻居点集的标签来更新自己的标签。在标签更新的过程中若存在多个可选标签的话，算法就会随机选择其中的v个标签来作为更新结果，v即用来限制每个节点可以拥有的标签数目的参数，设置参数v避免了所有的标签都更新为相同的结果。但已有的重叠组织架构标签传播算法在各节点邻居节...

【技术保护点】
1.一种基于平衡多标签传播的重叠组织架构挖掘方法，其特征在于：包括以下步骤：步骤1：读取社交网络数据，构造以用户为节点，用户之间的关系为边的社交网络图；步骤2：为所述社交网络图中的每个节点分配多个标签，每个节点的多个标签组成该节点的标签集；步骤3：按照随机顺序遍历所述社交网络图中的各节点，对每个中心节点，遍历其邻居节点，获取各所述邻居节点的标签集，根据所述标签集中的信息过滤掉所述邻居节点中的部分节点；步骤4：根据所述邻居节点过滤后保留下的邻居节点，计算所述中心节点的平衡归属系数，根据所述平衡归属系数的值保留所述中心节点的部分标签；步骤5：继续执行步骤3和步骤4，直至各节点的标签集不再变化，最终得到重叠组织架构挖掘的结果。

【技术特征摘要】
1.一种基于平衡多标签传播的重叠组织架构挖掘方法，其特征在于：包括以下步骤：步骤1：读取社交网络数据，构造以用户为节点，用户之间的关系为边的社交网络图；步骤2：为所述社交网络图中的每个节点分配多个标签，每个节点的多个标签组成该节点的标签集；步骤3：按照随机顺序遍历所述社交网络图中的各节点，对每个中心节点，遍历其邻居节点，获取各所述邻居节点的标签集，根据所述标签集中的信息过滤掉所述邻居节点中的部分节点；步骤4：根据所述邻居节点过滤后保留下的邻居节点，计算所述中心节点的平衡归属系数，根据所述平衡归属系数的值保留所述中心节点的部分标签；步骤5：继续执行步骤3和步骤4，直至各节点的标签集不再变化，最终得到重叠组织架构挖掘的结果。2.根据权利要求1所述的基于平衡多标签传播的重叠组织架构挖掘方法，其特征在于：在步骤1中，所述社交网络图的数学模型为G＝(V，E)；其中，V代表节点的集合，E代表连接边的集合。3.根据权利要求1所述的基于平衡多标签传播的重叠组织架构挖掘方法，其特征在于：在步骤2中，所述标签集中包含k个标签，各节点的标签集的k值不等。4.根据权利要求1或3所述的基于平衡多标签传播的重叠组织架构挖掘方法，其特征在于：在步骤2中，所述标签集中的多个标签均为形式为(c，b)的二元数对，其中c是组织架构标识符，b为归属系数，表示节点与组织架构的关系强度。5.根据权利要求1所述的基于平衡多标签传播的重叠组织架构挖掘方法，其特征在于：在步骤3中，按照随机顺序遍历所述社交网络图中的各节点，对每个中心节点，遍历其邻居节点，获取各所述邻居节点的标签集，根据所述标签集中的信息过滤掉所述邻居节点中的部分节点的具体步骤为：步骤3-1：按照随机顺序遍历所述社交网络图中的各节点，各节点均为待确定标签节点，也表示为中心节点；找到各中心节点的邻居节点集合N(x)；步骤3-2：获取所述邻居节点集合N(x)中各邻居节点的标签集{(c1，b1)，(c2，b2)，…，(ck，bk)}，其中b1+b2+…+bk＝1；步骤3-3：根据获得的所述中心节点各邻居节点的标签集，计算出各所述邻居节点的组织架构归属倾向度S，定义为：其中定义为：邻居节点标签集中所有的归属系数的平均值；选择所述中心节点的邻居节点中组织架构归属倾向度S较小的部分节点，将其过滤；若各邻居节点的S值相等，则将标签集的k值较大的邻居节点过滤掉。6.根据权利...

【专利技术属性】
技术研发人员：蔡晓东，陈思，
申请(专利权)人：桂林远望智能通信科技有限公司，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人