一种基于用户话题链接行为的社交网络意见领袖识别方法技术

技术编号:7759131 阅读:370 留言:0更新日期:2012-09-14 01:03
本发明专利技术公开了一种基于用户话题链接行为的社交网络意见领袖识别方法,首先构建社交网络有向图,然后修正网络边权值,对每一个网络节点i,计算经过节点i的最短路径条数,计算最短路径长度,对节点边进行加权,求得加权和B(i),基于话题追踪的意见领袖将由B(i)值较大的节点构成。本发明专利技术由于采用社交网络用户话题中链接关系的计算方法,降低了网络节点规模,从而降低了系统开销,提高了算法准确率和召回率。

【技术实现步骤摘要】

本专利技术涉及,主要用于在社交网络环境下,根据社交网络话题链接特性识别网络中的意见领袖。
技术介绍
意见领袖的识别方法主要分为基于自然语言处理和基于网络链接关系两大类。基于自然语言处理的意见领袖识别方法首先将特定领域的特征提取出来,然后对网络节点的所有帖子内容进行相同的特征提取,最后计算二者的相似度,相似度较高者可认为属于该领域的意见领袖。基于网络链接关系的意见领袖识别方法主要通过网络节点与其他节点的关系来识别,目前主要的识别方法是后者。 文献1“ Identifying Opinion Leaders in the Blogosphere ”公开了一种意见领袖识别方法Inf luenceRank,该方法根据与其他博客相比较来判断用户的重要性,以及这些用户对整个网络所做的贡献来计算用户权值,该论文采用了余弦定理计算不同博客实体的相似性,复杂性较高,开销大。文献2 “TwitterRank :Finding topic-sensitive Inuential Twitterers ”公开了一种Twitter网络节点计算方法TwitterRank,该方法根据Twitter中的用户关系、粉丝与关注者之间的分布以及在信息传播的过程中各种用户群体所起到的作用进行权重计算,该算法主要基于话题进行分析,召回率不高。基于网络链接关系的意见领袖的识别算法在处理网络图的时候,只要节点有直接相连的关系即可以认为有边的存在边权值为1,否则边权值为0,因此该网络为边权值取值范围为{0,1},然而在社交网络中,用户的交流比较广泛,用户关系的有无只能粗略地反映网络节点的关系,本专利技术将用户话题链接关系纳入研究范围,可以更加有效识别意见领袖,更适合社交网络环境的意见领袖识别。
技术实现思路
在传统模式下话题追踪采用的自然语言处理方式需要对文本进行分词处理,追踪时则还需要话题关键词特征提取等复杂处理,对于目前海量的网络数据而言具有很大的局限性。然而在社交网络中已经包含了大量的潜在用户关系和用户行为,因此使用社交网络中拓扑关系建模来取代传统话题特征提取和话题追踪,更符合网络特性。为了克服传统模式下话题追踪的局限性并适合目前流行的社交网络,本专利技术所采用的基于话题链接追踪的社交网络意见领袖识别方法提高意见领袖识别率和准确率。本专利技术解决其技术问题所采用的技术方案是,其特点是包括以下步骤I.构建社交网络有向图G= (E, V)式中,E表示用户关系集合,V表示用户节点集合;2.修正网络边权值在话题追踪过程中需要将传统的用户连接关系进行修正,边权值将不再是离散的{0,1},在追踪过程将根据用户之间的互动关系进行加权,当用户B对用户A的话题Tl进行了回复、转发以及收藏将影响增加这个权值。结合话题追踪模型进行边的加权,算法将设置算法常数向量h = (α, β, A )表示用户好友关系、回复、转帖和收藏各项加权系数。定义I :好友值F(i,j),表示由用户好友关系的边加权,用户i与j是好友会产生话题边E(i, j)加权,加权系数为α定义2 :回复值R1Q, j),表示由用户j回复用户i某话题得到的边E(i,j)加权,加权系数为β,用户回复该话题将使得该边的权值增加定义3 :转帖值R2 (i,j),表示由用户j转帖用户i某话题得到的边E (i,j)加权, 加权系数为S,转帖次数也将影响转帖值的大小定义4:收藏值C(i,j),表示由用户j收藏用户i某话题得到的边E(i,j)加权,加权系数为ω,收藏次数将影响收藏值的大小定义5 :边加权值E(i,j),表示经过加权后的网络图边的权重对每一个网络节点i和j,且i幸j,计算E(i, j),边加权值E(i, j)通过下式进行计算。 = . 其中6= ( ,八 & 0),方=(F,H C)因此边加权值E (i,j)展开为E(i, j) = a* F(i, j、+ β* R1 (/', j) + S* R2 (/', j) + m*C (/', j)错误!未找到引用源。经过加权后的网络图边权值将发生变化而变得不均匀。3.对每一个网络节点i,计算经过节点i的最短路径条数Path (i),最短路径的计算方法本专利技术没有定义,可以采用现有的任何一种最短路径计算方法,如Dijstra算法;4.定义意见领袖指标网络介数是指经过节点i的最短路径条数,将介数计算方法进行修改以适合加权的网络图,依然称其为介数,用符号B(i)表示,在社交网络中B(i)能够反映网络中节点i的重要性和中心性,基于话题追踪的意见领袖将由B(i)值较大的节点构成。计算最短路径长度,对节点边进行加权,求得加权和B (i),计算式如下所示 Path(J)BH) = YjEiiJ) ;=1为了使得结果在之间,将上式进行归一化处理得到K (i),如下式所示Path(T)離異=4_ YjBik) YjBik)k=\ k=\本专利技术的有益效果是由于采用社交网络用户话题中链接关系的计算方法,降低了网络节点规模,从而降低了系统开销,提高了算法准确率和召回率。下面从统计学的Kendal-tau和Spareman Rank以及算法准确率和召回率说明本专利技术的效果。在统计学中,肯德尔相关系数是是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-I到I之间,当τ为I时,表示两个随机变量拥有一致的等级相关性;当τ为-I时,表示两个随机变量拥有完全相反的等级相关性;当τ为O时,表示两个随机变量是相互独立的。表I给出了基于度意见领袖识别算法、基于PageRank意见领袖识别算法及基于TwitterRank意见领袖识别算法与本专利技术的算法之间的Kendall_tau值。表I意见领袖算法K-tau值 权利要求1. ,其特征在于包括下述步骤1)构建社交网络有向图G=(E,V),式中,E表示用户关系集合,V表示用户节点集合;2)修正网络边权值定义1 :好友值F(i,j),表示由用户好友关系的边加权,用户i与j是好友会产生话题 边E(i,j)加权,加权系数为a ;定义2 :回复值Rji,j),表示由用户j回复用户i某话题得到的边E(i,j)加权,加权 系数为P,用户回复该话题将使得该边的权值增加;定义3 :转帖值R2(i,j),表示由用户j转帖用户i某话题得到的边E (i,j)加权,加权 系数为S,转帖次数也将影响转帖值的大小;定义4:收藏值C(i,j),表示由用户j收藏用户i某话题得到的边E(i,j)加权,加权 系数为《,收藏次数将影响收藏值的大小;定义5 :边加权值E(i,j),表示经过加权后的网络图边的权重;对每一个网络节点i和j,且i古j,全文摘要本专利技术公开了,首先构建社交网络有向图,然后修正网络边权值,对每一个网络节点i,计算经过节点i的最短路径条数,计算最短路径长度,对节点边进行加权,求得加权和B(i),基于话题追踪的意见领袖将由B(i)值较大的节点构成。本专利技术由于采用社交网络用户话题中链接关系的计算方法,降低了网络节点规模,从而降低了系统开销,提高了算法准确率和召回率。文档编号G06F17/30GK102662956SQ20121005425公开日20本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:何轶王伶姚如贵张兆林彭冬
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1