当前位置: 首页 > 专利查询>北京大学专利>正文

一种多主题消息传播中结构洞节点的挖掘方法技术

技术编号:15203798 阅读:200 留言:0更新日期:2017-04-22 22:52
本发明专利技术公布了一种多主题消息传播中结构洞节点的挖掘方法,以网络中传递的消息作为输入数据,包括:先令各节点的结构洞分数为零;生成综合网络拓扑结构和各主题下的子图;对各主题下的子图分别进行社区划分;通过多主题打分方法对各个节点进行多主题结构洞打分,得到各个节点的结构洞分数;输出结构洞分数最高的k个节点,作为结构洞节点。本发明专利技术提供方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题;在保持较高的时间效率基础上,显著提升了结构洞节点挖掘结果的准确率;且综合考虑多主题下节点对消息传播的影响。

Mining method of structure hole node in multi subject message propagation

The invention discloses a multi hole structure mining method of nodes in the message subject, with the network message passing as input data, including: each node shilling structure hole scored zero; synthesis of network topology and the theme of the subgraph; for each subgraph separately under the community division multi subject structure hole; scoring for each node through multi topic scoring method, get the structural holes of each node score; the highest score of the hole output structure of K nodes, as structural hole nodes. The present invention provides a method to dig out the structural holes of valuable nodes accurately and efficiently solve the multi hole structure under the theme of the mining problem in time to maintain a high efficiency; based on the accurate rate significantly improves the structure of hole mining results and nodes; considering the influence of multi subject under section of the news spread.

【技术实现步骤摘要】

本专利技术涉及社交网络分析领域,尤其涉及一种在多主题消息传播中起到重要作用的结构洞节点的挖掘方法。
技术介绍
网络平台的流行,催生出人们对社交网络分析的极大兴趣,研究如何挖掘结构洞节点是其中的关键领域。结构洞节点即连接不同社区的节点;它掌握多个社区的信息动向、控制信息在不同社区之间的传播,因而发挥重要作用。例如,若某位研究人员是结构洞节点,他可以将一个与之相连社区的技术应用到另一个社区的研究问题中,或综合几个社区的研究思路来谋求创新。良好的分析和利用已有的主题信息和网络拓扑结构信息,是挖掘结构洞节点的有效途径,这对于后续的社交网络分析领域(如,社区发现及网络中边类型的预测)有着重要的帮助。现有结构洞挖掘领域的研究基于网络拓扑结构分析,均没有考虑到传播内容的主题分布,对传播内容不敏感。现有研究中,或对于经过节点的最短路径计数,在降序排序中选择前k个节点作为结构洞节点;或对于节点不直接相连的邻居节点对数进行计数,选择计数值最高的前k个节点作为结构洞节点;或使用Google的PageRank算法对每个节点的重要性进行评估,选择PageRank得分最高的前k个节点作为结构洞节点;亦有研究将参与社区数量、最小切等因素和方法考虑在内。然而,现有的传统结构洞挖掘模型只考虑了拓扑结构以及与拓扑结构相关的社交理论,往往忽视了社交主题的影响,没有综合考虑多主题的结构洞节点挖掘,无法在社交网络中挖掘到更有价值的信息,难以做到更加贴近真实环境。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种多主题下的结构洞节点的挖掘方法,通过多主题打分方法对节点进行结构洞打分评估,由此得到的分数最高的k个节点,即为所求的挖掘结果。本专利技术提供方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题,满足实际应用需求。本专利技术的原理是:综合考虑多主题的结构洞节点挖掘更加贴近真实环境,能够在社交网络中挖掘到更有价值的信息。因此,本专利技术考虑到社交网络中信息多主题的因素,提出一套多主题下结构洞节点挖掘方法。依据结构洞的特点,它能够在多个社区之间的信息传播中发挥重要作用;在多主题的条件下,哪些节点更能为与之关联社区提供新颖独特、有价值的信息,则更加具有结构洞所体现的意义;而消息的新颖和价值,往往由于人们之前对它了解和接触的并不多,例如学科交叉所带来的优势。本专利技术进一步分析多主题条件下影响结构洞打分的三项因素,帮助挖掘出一批与传统方法不同的、更加具有现实意义和价值的结构洞节点。本专利技术首先将各节点结构洞分数初始化为零;先依据原始输入数据生成综合网络拓扑结构及各主题下的子图;对各主题下的子图分别进行社区划分;再通过多主题打分方法对节点进行结构洞打分评估,由此得到的分数最高的k个节点,即为所求的挖掘结果。该方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题,满足实际应用需求。本专利技术提供的技术方案是:一种多主题消息传播中的结构洞节点的挖掘方法,所述方法以网络中传递的消息作为输入数据(即消息发布节点、被转发节点、以及消息内容),根据节点对多主题在社区间传播的促进作用和贡献程度进行打分,从而得到各节点的结构洞分数;具体包括如下步骤:1)首先令各节点的结构洞分数H(v)为零;2)生成综合网络拓扑结构G=(V,E)和各主题t下的子图Gt=(V,Et);3)对各主题t下的子图分别进行社区划分,得到一组社区的集合4)通过多主题打分方法对各个节点进行多主题结构洞打分,得到其结构洞分数H(v);5)输出结构洞分数最高的k个节点,作为结构洞节点。针对上述多主题下的结构洞节点挖掘方法,进一步地,步骤2)所述生成综合网络拓扑结构及各主题下子图的方法,具体包括如下步骤:21)利用隐含狄利克雷分布模型(LatentDirichletAllocation,简称LDA),将每条消息内容分解为主题向量其中表示该条消息内容在ti主题上的分量;22)对于每条消息k,取其在网络上被转发的次数rk作为该消息的影响力衡量指标;23)计算每对节点a与b之间的边上信息:其中,分量包含边(a,b)在ti主题上的边权和影响力信息,具体为:计算边上经过的所有消息在ti主题下的主题分量之均值,即体现边(a,b)在ti主题下的边权,称为度量边(a,b)上经过的所有消息k在ti主题下的影响力,即24)每对节点经过上述步骤22)-23)的处理,得到综合网络拓扑结构G=(V,E),其中V为节点集,E为e组成的边集;25)生成主题ti下的子图其中由各条边在ti上的分量组成,即步骤3)所述对各主题下的网络子图进行社区划分的方法,具体包括如下步骤:31)计算V所有可能的子集,作为潜在社区S;为减少时间消耗,可设置至少包含节点个数的阈值;称这样的子集为潜在社区S;针对每个主题ti,执行操作32)~36),得到子图上的一组社区:32)对每个潜在社区S,计算子图中,S包含边的个数(仅考虑边权分量大于阈值q的边,q一般取0.005~0.01之间),记为ms;33)对每个潜在社区S,计算子图中,S向外伸出的边的个数(仅考虑边权分量大于阈值q的边,q一般取0.005~0.01之间),即边的一个顶点在S中,一个顶点不在S中,记为cs;34)计算跨界边比例f(S),即跨S的边在S所涉及的所有边中所占的比例;该值越大,S成为社区的可能性越低;35)以1/f(S)作为潜在社区S成为社区的评分依据,对所有潜在社区进行降序排名;36)选择排名前l个潜在社区,即得子图上的一组社区式2中,为主题ti下一组社区的集合;为其中的一个社区;l一般取潜在社区总数的5%~10%;由此得到各主题下的网络子图相对应的社区集合;步骤4)所述对节点进行多主题结构洞打分的方法,具体包括如下步骤:401)首先,计算社区在主题ti上的活跃度(或称贡献度)该指标反映若作为消息供源,提供信息的可靠性和质量:式3中,在步骤23)中计算,表示边上经过的所有消息在ti主题下的影响力;402)将各主题ti下满足式4的社区记为典型社区:403)将各主题ti下满足式5的边记为弱边:式5中,在步骤23)中计算,表示ti主题下的边权;404)遍历每个节点的连接情况:若节点a既通过边e连接t1主题下典型社区也通过边e′连接t2主题下典型社区且连接a与的边e在分量上是弱边,则认为e上传播的关于t2的消息,是经由a对的影响;将上述情况记为a的一个加分项,即对应的t1、t2、的信息保存为一项;作为消息供源,其活跃度影响a作为结构洞节点的价值;405)e上传播的t2消息的影响力为亦体现a的结构洞价值,在步骤23)中计算;406)针对每一节点a,404)中所述每个加分项将对a在t2主题下的结构洞分数H(a,t2)贡献的加分值;407)a在t2主题下的结构洞分数H(a,t2)先赋为406)中a的所有加分值之和;同于步骤404)-407),逐个处理V中各个节点;408)考虑到社区与有重叠节点,此类节点所发挥的结构洞成分与a构成竞争;对于a的每个加分值进行更新处理,即:式6中,h表示社区与重叠部分的节点,H(h,t2)表示节点h在t2主题下的结构洞分数;409)使用新的加分值tmp′更新a在t2主题下的结构洞分数H(a,t2),更新后的H(a,t2)即为所有tm本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201611001739.html" title="一种多主题消息传播中结构洞节点的挖掘方法原文来自X技术">多主题消息传播中结构洞节点的挖掘方法</a>

【技术保护点】
一种多主题消息传播中结构洞节点的挖掘方法,所述方法以网络中传递的消息作为输入数据,所述网络中传递的消息数据包括消息发布节点、被转发节点和消息内容,通过多主题打分方法进行打分,从而得到各节点的结构洞分数;由此得到的分数最高的k个节点,即为所求的挖掘结果;包括如下步骤:1)首先令各节点的结构洞分数H(v)为零;2)生成综合网络拓扑结构G=(V,E)和各主题t下的子图Gt=(V,Et);其中,V为节点集,E为e组成的边集;由各条边在主题ti上的分量组成;为每条边在主题ti上的边权和影响力,为边权分量;为影响力分量;3)对各主题t下的子图Gt分别进行社区划分,得到一组社区的集合4)通过多主题打分方法,根据节点对多主题在社区间传播的促进作用和贡献程度对各个节点进行多主题结构洞打分,得到各个节点的结构洞分数H(v);5)输出结构洞分数最高的k个节点,作为结构洞节点。

【技术特征摘要】
1.一种多主题消息传播中结构洞节点的挖掘方法,所述方法以网络中传递的消息作为输入数据,所述网络中传递的消息数据包括消息发布节点、被转发节点和消息内容,通过多主题打分方法进行打分,从而得到各节点的结构洞分数;由此得到的分数最高的k个节点,即为所求的挖掘结果;包括如下步骤:1)首先令各节点的结构洞分数H(v)为零;2)生成综合网络拓扑结构G=(V,E)和各主题t下的子图Gt=(V,Et);其中,V为节点集,E为e组成的边集;由各条边在主题ti上的分量组成;为每条边在主题ti上的边权和影响力,为边权分量;为影响力分量;3)对各主题t下的子图Gt分别进行社区划分,得到一组社区的集合4)通过多主题打分方法,根据节点对多主题在社区间传播的促进作用和贡献程度对各个节点进行多主题结构洞打分,得到各个节点的结构洞分数H(v);5)输出结构洞分数最高的k个节点,作为结构洞节点。2.如权利要求1所述结构洞节点的挖掘方法,其特征是,步骤2)所述生成综合网络拓扑结构和各主题下子图的方法,具体包括如下步骤:21)利用隐含狄利克雷分布模型LDA,将每条消息k的内容分解为主题向量其中表示该条消息k内容在ti主题上的分量;22)对于每条消息k,取其在网络上被转发的次数rk作为该消息的影响力衡量指标;23)计算每对节点a与b之间的边上信息,记为:其中,分量包含边(a,b)在ti主题上的情况,具体为:体现边(a,b)在ti主题下的边权,通过计算边上经过的所有消息在ti主题下的主题分量的均值获得;用于度量边(a,b)上经过的所有消息k在ti主题下的影响力,24)每对节点经过上述步骤22)~23)进行处理,得到综合网络拓扑结构G=(V,E),其中,V为节点集,E为e组成的边集;25)生成主题ti下的子图其中,由各条边在ti上的分量组成,即3.如权利要求1所述结构洞节点的挖掘方法,其特征是,步骤3)所述对各主题下的网络子图进行社区划分的方法具体包括如下步骤:31)计算V所有可能的子集,作为潜在社区S;针对每个主题ti,执行操作32)~36),得到子图上的一组社区:32)对每个潜在社区S,计算子图中,将S包含边的个数记为ms;33)对每个潜在社区S,计算得到子图中,将S向外伸出的边的个数记为cs;所述S向外伸出的边即该边的一个顶点在S中,另一个顶点不在S中;34)通过式1计算得到跨界边比例f(S),即跨S的边在S所涉及的所有边中所占的比例;35)以1/f(S)作为潜在社区S成为社区的评分依据,对所有潜在社区进行降序排名;36)选择排名最前的l个潜在社区,即得子图上的一组社区的集合式2中,为主题ti下一组社区的集合;为其中的一个社区;由...

【专利技术属性】
技术研发人员:宋国杰谢佳明赵彤
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1