一种社群划分方法、装置、存储介质及电子装置制造方法及图纸

技术编号:24169384 阅读:16 留言:0更新日期:2020-05-16 02:27
本发明专利技术提供了一种社群划分方法、装置、存储介质及电子装置,该方法包括:将关系数据处理为图结构数据;统计该图结构数据的联通性,将该图结构数据划分为第一社群集合;在该第一数量小于预先设置的社群数量的情况下,通过标签传播算法LPA将该图结构数据划分为第二社群集合;对该第二社群集合中的社群进行中心度计算,确定该第二社群集合中社群的中心点;和/或,在该第一数量大于或等于该预先设置的社群数量的情况下,对该第一社群集合中的社群进行中心度计算,确定该第一社群集合中社群的中心点,可以解决相关技术中通过GN算法划分社群存在时间复杂度太高,且不知道最后会有多少社群的问题,提高了社群划分的准确性。

【技术实现步骤摘要】
一种社群划分方法、装置、存储介质及电子装置
本专利技术涉及信息
,具体而言,涉及一种社群划分方法、装置、存储介质及电子装置。
技术介绍
社群是由无数群成员构成的,而社群的KOL就是这些社群成员的连接点,KOL的意思是舆论领袖,这个群体往往拥有非常广阔的人脉,大家对他们通常会比较服气。社群管理者可以通过找出这些KOL,让他们定时通过文字或是直播的方式分享一些经验和内容,这样的话在提升了社群活跃度的同时,还能够让社群的价值进一步提升。社区发现用来发现网络中的社区结构,也可以看作是一种聚类算法。现有的划分方法,过于依赖人的主观判断,不能及时动态的反映社群的发展情况和动态结构。在现有的实际运作过程中,主要通过以下两种方法划分社群:1、图分割法图分割方法大多是基于迭代二分法的,基本思想是将图分割成两个子图,然后迭代,最后得出要求的子图数。经典的算法有Kernighan-Lin算法和谱二分算法。K-L(Kernighan-Lin)算法是一种将已知网络划分为已知大小的两个社区的二分方法,它是一种贪婪算法。它的主要思想是为网络划分定义了一个函数增益Q,Q表示的是社区内部的边数与社区之间的边数之差,根据这个方法找出使增益函数Q的值成为最大值的划分社区的方法。具体策略是,将社区结构中的结点移动到其他的社区结构中或者交换不同社区结构中的结点。从初始解开始搜索,直到从当前的解出发找不到更优的候选解,然后停止。谱二分算法,当网络中存在两个社区结构时,就能够根据非零特征值所对应的特征向量中的元素值进行结点划分。把所有正元素对应的那些结点划分为同一个社区结构,而所有负元素对应的结点划分为另外一个社区结构。谱二分算法利用的是Laplace矩阵的特征值和特征向量的性质来做社区划分。Laplace矩阵的第二小特征值λ2的值越小,划分的效果就越好。所以谱二分法使用Laplace矩阵的第二小特征值来划分社区。上述的图分割法存在以下缺点:K-L算法的缺陷是必须先指定了两个子图的大小,不然不会得到正确的结果,实际应用意义不大;谱平分法一次只能划分2个社区,如果需要划分多个,需要执行多次;如果只需要划分两个社区,谱平分法的效率比较高,但是要划分多个社区的时候,效率就不高了。2、GN算法在一个网络之中,通过社区内部的边的最短路径相对较少,而通过社区之间的边的最短路径的数目则相对较多。下图中展示了变得强度以及边介数在现实网络中的分布情况。GN算法是一个基于删除边的算法,本质是基于聚类中的分裂思想,在原理上是使用边介数作为相似度的度量方法。在GN算法中,每次都会选择边介数高的边删除,进而网络分裂速度远快于随机删除边时的网络分裂。GN算法的步骤如下:计算每一条边的边介数;删除边界数最大的边;重新计算网络中剩下的边的边阶数;重复上述步骤,直到网络中的任一顶点作为一个社区为止。GN算法存在以下缺点:不知道最后会有多少个社区;在计算边介数的时候可能会有很对重复计算最短路径的情况,时间复杂度太高;GN算法不能判断算法终止位置。针对相关技术中如何对文本中具有一定关联的两个以上关键词进行关联标注的问题,尚未提出解决方案。
技术实现思路
本专利技术实施例提供了一种社群划分方法、装置、存储介质及电子装置,以至少解决相关技术中如何对文本中具有一定关联的两个以上关键词进行关联标注的问题。根据本专利技术的一个实施例,提供了一种社群划分方法,包括:将关系数据处理为图结构数据;统计所述图结构数据的联通性,将所述图结构数据划分为第一社群集合,其中,所述第一社群集合包括第一数量的社群;在所述第一数量小于预先设置的社群数量的情况下,通过标签传播算法LPA将所述图结构数据划分为第二社群集合,其中,所述第二社群集合包括第二数量的社群,所述第二数量大于或等于所述预先设置的社群数量;对所述第二社群集合中的社群进行中心度计算,确定所述第二社群集合中社群的中心点;和/或,在所述第一数量大于或等于所述预先设置的社群数量的情况下,对所述第一社群集合中的社群进行中心度计算,确定所述第一社群集合中社群的中心点。可选地,通过标签传播算法LPA将所述图结构数据划分为第二社群集合包括:为所述图结构数据中每个节点配置一个标签;对所述每个节点执行以下步骤,对于执行以下步骤的节点称为当前节点:重复统计所述当前节点的邻居节点的标签,将出现次数最多的邻居节点的标签更新所述当前节点的标签,直到所述当前节点的标签为邻居节点的标签中出现次数最多或最多的之一;将具有相同标签的节点划分到同一个社群中,得到所述多个第二社群。可选地,将出现次数最多的邻居节点的标签更新所述当前节点的标签包括:在出现次数最多的邻居节点的标签为多个的情况下,从出现次数最多的多个邻居节点的标签中随机选择一个邻居节点的标签确定为所述当前节点的标签。可选地,为所述图结构数据中的每个节点配置一个标签包括:将所述图结构数据中每个节点的节点标识ID配置为所述每个节点的标签ID。可选地,在通过标签传播算法LPA将所述图结构数据划分为第二社群集合之后,所述方法还包括:组合所述第二社群集合的社群中包含社群中所有节点的所有边,重新构建第三社群集合,其中,所述第三社群集合包括第三数量的社群;对所述第三社群集合中的社群进行连通性分析,保留节点数量最多的社群,得到第四社群集合,并将出所述第四社群集合的社群的节点之外的其他节点的标签清零,其中,所述第四社群集合包括第四数量的社群;对所述第二社群集合中的社群进行中心度计算,确定所述第二社群集合中社群的中心点包括:对所述第四社群集合中的社群进行中心度计算,确定所述第二社群集合中社群的中心点。可选地,在对所述第三社群集合中的社群进行连通性分析,保留节点数量最多的社群,得到第四社群集合之后,所述方法还包括:对所述第四社群集合中的社群进行社群亲密度检测,统计所述第四社群集合的社群中具有标签的节点数量;判断所述第三社群集合社群的节点数量是否大于或等于预定阈值;在判断结果为是的情况下,将所述第四社群集合的社群中所述节点数量大于或等于所述预定阈值的社群中所有节点的标签清零;统计所有节点的标签信息,对所有未设置标签的节点通过标签传播算法LPA重新进行社群划分。可选地,将所述关系数据处理为所述图结构数据包括:获取所述关系数据中包含源节点与目标节点之间的边数据的集合,其中,所述边数据包括源节点的属性、目标节点的属性以及源节点与目标节点之间的边的属性;根据所述边数据的集合构建所述图结构数据。根据本专利技术的另一个实施例,还提供了一种社群划分装置,包括:处理模块,用于将关系数据处理为图结构数据;第一划分模块,用于统计所述图结构数据的联通性,将所述图结构数据划分为第一社群集合,其中,所述第一社群集合包括第一数量的社群;第二划分模块,用于在所述第一数量小于本文档来自技高网
...

【技术保护点】
1.一种社群划分方法,其特征在于,包括:/n将关系数据处理为图结构数据;/n统计所述图结构数据的联通性,将所述图结构数据划分为第一社群集合,其中,所述第一社群集合包括第一数量的社群;/n在所述第一数量小于预先设置的社群数量的情况下,通过标签传播算法LPA将所述图结构数据划分为第二社群集合,其中,所述第二社群集合包括第二数量的社群,所述第二数量大于或等于所述预先设置的社群数量;对所述第二社群集合中的社群进行中心度计算,确定所述第二社群集合中社群的中心点;和/或,/n在所述第一数量大于或等于所述预先设置的社群数量的情况下,对所述第一社群集合中的社群进行中心度计算,确定所述第一社群集合中社群的中心点。/n

【技术特征摘要】
1.一种社群划分方法,其特征在于,包括:
将关系数据处理为图结构数据;
统计所述图结构数据的联通性,将所述图结构数据划分为第一社群集合,其中,所述第一社群集合包括第一数量的社群;
在所述第一数量小于预先设置的社群数量的情况下,通过标签传播算法LPA将所述图结构数据划分为第二社群集合,其中,所述第二社群集合包括第二数量的社群,所述第二数量大于或等于所述预先设置的社群数量;对所述第二社群集合中的社群进行中心度计算,确定所述第二社群集合中社群的中心点;和/或,
在所述第一数量大于或等于所述预先设置的社群数量的情况下,对所述第一社群集合中的社群进行中心度计算,确定所述第一社群集合中社群的中心点。


2.根据权利要求1所述的方法,其特征在于,通过标签传播算法LPA将所述图结构数据划分为第二社群集合包括:
为所述图结构数据中每个节点配置一个标签;
对所述每个节点执行以下步骤,对于执行以下步骤的节点称为当前节点:
重复统计所述当前节点的邻居节点的标签,将出现次数最多的邻居节点的标签更新所述当前节点的标签,直到所述当前节点的标签为邻居节点的标签中出现次数最多或最多的之一;
将具有相同标签的节点划分到同一个社群中,得到所述多个第二社群。


3.根据权利要求2所述的方法,其特征在于,将出现次数最多的邻居节点的标签更新所述当前节点的标签包括:
在出现次数最多的邻居节点的标签为多个的情况下,从出现次数最多的多个邻居节点的标签中随机选择一个邻居节点的标签确定为所述当前节点的标签。


4.根据权利要求2所述的方法,其特征在于,为所述图结构数据中的每个节点配置一个标签包括:
将所述图结构数据中每个节点的节点标识ID配置为所述每个节点的标签ID。


5.根据权利要求1所述的方法,其特征在于,在通过标签传播算法LPA将所述图结构数据划分为第二社群集合之后,所述方法还包括:
组合所述第二社群集合的社群中包含社群中所有节点的所有边,重新构建第三社群集合,其中,所述第三社群集合包括第三数量的社群;
对所述第三社群集合中的社群进行连通性分析,保留节点数量最多的社群,得到第四社群集合,并将出所述第四社群集合的社群的节点之外的其他节点的标签清零,其中,所述第四社群集合包括第四数量的社群;
对所述第二社群集合中的社群进行中心...

【专利技术属性】
技术研发人员:姜旭李嘉琛
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1