基于改进PageRank算法的微博信息传播关键节点识别方法技术

技术编号:19140143 阅读:36 留言:0更新日期:2018-10-13 08:40
本发明专利技术提供了基于改进PageRank算法的微博信息传播关键节点识别方法,步骤包括:1)信息采集;2)确定所述微群内转发次数最高的文本信息;3)获取的文本信息获取使用“@”用户标识的文本信息,该用户为B;4)获取的文本信息计算高频词;5)采集用户B的微博文本信息后与所述高频词比对,确定A微群内的成员的转发次数最高文本信息是否被用户B转发,如确定用户B转发,确定B是否传递给了用户C,从而形成信息的传播路径;6)确定传播路径上的用户所在的微群,从而构建微群关注网络;7)通过WeiboRank算法确定最具影响力的微群。本发明专利技术实现微群之间以及群内的中关键节点的发掘,不用建立复杂的数据模型,方便快捷的进行群体发现,具有较高的稳定性。

Key node identification method of micro-blog information propagation based on improved PageRank algorithm

The invention provides a method for identifying key nodes of microblog information propagation based on improved PageRank algorithm. The steps include: 1) information collection; 2) determining the text information with the highest number of forwards in the microblog; 3) obtaining the text information using the \@\ user identification, which is a text information meter acquired by the user B; 4) determining the text information with the highest number of forwards in the microblog. Computing high-frequency words; 5) Comparing the text information of user B with the high-frequency words, determining whether the highest number of text messages forwarded by the members of the A microgroup are forwarded by user B, such as determining whether user B forwards, determining whether or not user B transmits to user C, thus forming the transmission path of the information; 6) determining the location of the user on the transmission path. To construct a network of micro-group concerns, the WeiboRank algorithm is used to determine the most influential micro-group. The invention realizes the discovery of key nodes between micro-groups and within the group without establishing complicated data model, facilitates the rapid group discovery and has high stability.

【技术实现步骤摘要】
基于改进PageRank算法的微博信息传播关键节点识别方法
本专利技术涉及数据分析领域,特别涉及一种基于改进PageRank算法的微博信息传播关键节点识别方法。
技术介绍
微博自问世以来就成为时代网络的标志性产品,这个具有强烈“自媒体”属性的互联网应用,便以其实即时性和便捷性成为了重要的社交媒体。但公信力是“自媒体”的弱势,一些关键用户在信息传播过程中从事话题操作,因而低俗内容、谣言、虚假信息等内容易出现,微博信息可信度就成了一个大问题,加上互联网信息的传播速度极快,微博舆情信息的内容会对社会公共安全形成威胁。研究微博网络信息数据分析与挖掘信息传播中的影响力节点,发现最具影响力的传播节点都是很重要的,对微博网络营销、舆情监控及控制不实微博舆论有着积极意义。微群是微博群的简称,能够聚合具有相同爱好或者相同标签的用户,将所有与之相应的话题全部聚拢在微群里面。同一微群里的微博用户具有较高的聚合度和活跃程度,相关研究指出微博信息在微群中更易传播,因而不实微博信息在群体中更易传播。
技术实现思路
本专利技术的目的在于提出基于微群间微博信息传播的一种关键节点的发现方法。本专利技术提供了一种改进PageRank算法的微博信息传播关键节点识别方法,步骤包括:1)采集某一微群A内所有成员的信息、发表微博列表信息、微博文本信息、用户关系信息;2)确定所述微群内转发次数最高的文本信息;3)通过步骤2获取的文本信息获取使用“@”用户标识的文本信息,该用户为B;4)通过步骤3获取的文本信息计算高频词;5)采集用户B的微博文本信息后与所述高频词比对,确定A微群内的成员的转发次数最高文本信息是否被用户B转发,如确定用户B转发,采用上述相同的方法,确定用户B是否把A微群内的成员的转发次数最高文本信息传递给了用户C,从而形成信息的传播路径;6)确定传播路径上的用户所在的微群,从而构建微群关注网络;7)通过WeiboRank算法确定最具影响力的微群,所述WeiboRank算法的计算步骤为:71)计算直接号召力F1(v),用户v位于中心点处,按照信息传播路径的距离,我们将与中心点距离为1的所有节点集合起来,组成一个同心圆,形成N1层,可见该层中的节点数目,即为用户v的粉丝集合,记为F1(v),F(v)的大小表征了用户v的直接号召力;72)计算影响范围R,将与中心点距离为2的所有节点集合起来,形成N2层,可见该层中的节点是F1(v)中各用户的粉丝集合,记为F2(v),以此类推,直到最大的一个同心圆NM层中,所有节点均为叶子节点为止,影响范围i为中心点距离节点的距离值;73)计算用户v的WR值,WR值定义为用户v的直接号召力与平均信息负荷量的乘积j表示信息由节点v能传递到的连通节点;dvj表示节点v与节点j之间的距离;表征平均信息负荷量;用户v的WR值定义为用户v的直接号召力与平均信息负荷量的乘积,用户v的WR值越大,表征该用户的影响力越大,在微博网络中的地位越关键。优选方案是:采集新浪微博和腾讯微博两大主流媒体数据。优选方案是:利用WEB爬虫技术采集了某一微群内成员的用户ID,通过API接口,获取JSON文件格式的微博信息各相关参数;通过调用API的微博读取接口函数。优选方案是:使用SVM算法对我播信息进行分类,得到不同的类簇,按照各类簇中所包含的转发数最多的信息从高到低对类簇进行排序,得到转发数最高的类簇。优选方案是:使用TF-IDF算法得到高频词。优选方案是:高频词数量为α,微群中总体传播最多的高频词为β,取相同基数,得到高频词传播比例γ=α/β。优选方案是:在微群中体WR值相差不大时,高频词传播人数频率获取δ值,δ=δ*γ。δ值可作为另一个参考参数,δ值越大,说明微群在微群关系中比重越大,最终得到微群关系传播中的关键微群节点。本专利技术的有益效果如下:通过该方法可以准确的分析出微群间微博信息传播过程中的关键性节点。针对微博网络营销、不实微博舆论以及违法信息活动信息的有效筛选,系统对用户信息以及关键词信息进行数据聚类分析,提取出信息的关键性的行为特征,系统从人物发表微博信息时间、频率、高频词和文本末@关键人物以及相关人物的微博微群信息,实现微群之间以及群内的中关键节点的发掘,不用建立复杂的数据模型,方便快捷的进行群体发现,具有较高的稳定性。附图说明图1为本专利技术的流程框图;图2为微群关系网络图;图3为实施例中微群微博信息传播图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。如图1所示,本专利技术提供了一种改进PageRank算法的微博信息传播关键节点识别方法,步骤包括:1)采集某一微博群A内所有成员的信息、发表微博列表信息、微博文本信息、用户关系信息;2)确定所述微群内转发次数最高的文本信息;3)通过步骤2获取的文本信息获取使用“@”用户标识的文本信息,该用户为B;4)通过步骤3获取的文本信息计算高频词;5)采集用户B的微博文本信息后与所述高频词比对,确定A微群内的成员的转发次数最高文本信息是否被用户B转发,如确定用户B转发,采用上述相同的方法,确定用户B是否把A微群内的成员的转发次数最高文本信息传递给了用户C,从而形成信息的传播路径;6)确定传播路径上的用户所在的微群,从而构建微群关注网络;7)通过WeiboRank算法确定最具影响力的微群,所述WeiboRank算法的计算步骤为:71)计算直接号召力F1(v),用户v位于中心点处,按照信息传播路径的距离,我们将与中心点距离为1的所有节点集合起来,组成一个同心圆,形成N1层,可见该层中的节点数目,即为用户v的粉丝集合,记为F1(v),F(v)的大小表征了用户v的直接号召力;72)计算影响范围R,将与中心点距离为2的所有节点集合起来,形成N2层,可见该层中的节点是F1(v)中各用户的粉丝集合,记为F2(v),以此类推,直到最大的一个同心圆NM层中,所有节点均为叶子节点为止,影响范围i为中心点距离节点的距离值;73)计算用户v的WR值,WR值定义为用户v的直接号召力与平均信息负荷量的乘积j表示信息由节点v能传递到的连通节点;dvj表示节点v与节点j之间的距离;表征平均信息负荷量;用户v的WR值定义为用户v的直接号召力与平均信息负荷量的乘积,用户v的WR值越大,表征该用户的影响力越大,在微博网络中的地位越关键。优选方案是:采集新浪微博和腾讯微博两大主流媒体数据。优选方案是:利用WEB爬虫技术采集了某一微群内成员的用户ID,通过API接口,获取JSON文件格式的微博信息各相关参数;通过调用API的微博读取接口函数。优选方案是:使用SVM算法对我播信息进行分类,得到不同的类簇,按照各类簇中所包含的转发数最多的信息从高到低对类簇进行排序,得到转发数最高的类簇。优选方案是:使用TF-IDF算法得到高频词。优选方案是:高频词数量为α,微群中总体传播最多的高频词为β,取相同基数,得到高频词传播比例γ=α/β。优选方案是:在微群中体WR值相差不大时,高频词传播人数频率获取δ值,δ=δ*γ。δ值可作为另一个参考参数,δ值越大,说明微群在微群关系中比重越大,最终得本文档来自技高网...

【技术保护点】
1.基于改进PageRank算法的微博信息传播关键节点识别方法,其特征在于,步骤包括:1)采集某一微群A内所有成员的信息、发表微博列表信息、微博文本信息、用户关系信息;2)确定所述微群内转发次数最高的文本信息;3)通过步骤2获取的文本信息获取使用“@”用户标识的文本信息,该用户为B;4)通过步骤3获取的文本信息计算高频词;5)采集用户B的微博文本信息后与所述高频词比对,确定A微群内的成员的转发次数最高文本信息是否被用户B转发,如确定用户B转发,采用上述相同的方法,确定用户B是否把A微群内的成员的转发次数最高文本信息传递给了用户C,从而形成信息的传播路径;6)确定传播路径上的用户所在的微群,从而构建微群关注网络;7)通过WeiboRank算法确定最具影响力的微群,所述WeiboRank算法的计算步骤为:71)计算直接号召力F1(v),用户v位于中心点处,按照信息传播路径的距离,我们将与中心点距离为1的所有节点集合起来,组成一个同心圆,形成N1层,可见该层中的节点数目,即为用户v的粉丝集合,记为F1(v),F(v)的大小表征了用户v的直接号召力;72)计算影响范围R,将与中心点距离为2的所有节点集合起来,形成N2层,可见该层中的节点是F1(v)中各用户的粉丝集合,记为F2(v),以此类推,直到最大的一个同心圆NM层中,所有节点均为叶子节点为止,影响范围...

【技术特征摘要】
1.基于改进PageRank算法的微博信息传播关键节点识别方法,其特征在于,步骤包括:1)采集某一微群A内所有成员的信息、发表微博列表信息、微博文本信息、用户关系信息;2)确定所述微群内转发次数最高的文本信息;3)通过步骤2获取的文本信息获取使用“@”用户标识的文本信息,该用户为B;4)通过步骤3获取的文本信息计算高频词;5)采集用户B的微博文本信息后与所述高频词比对,确定A微群内的成员的转发次数最高文本信息是否被用户B转发,如确定用户B转发,采用上述相同的方法,确定用户B是否把A微群内的成员的转发次数最高文本信息传递给了用户C,从而形成信息的传播路径;6)确定传播路径上的用户所在的微群,从而构建微群关注网络;7)通过WeiboRank算法确定最具影响力的微群,所述WeiboRank算法的计算步骤为:71)计算直接号召力F1(v),用户v位于中心点处,按照信息传播路径的距离,我们将与中心点距离为1的所有节点集合起来,组成一个同心圆,形成N1层,可见该层中的节点数目,即为用户v的粉丝集合,记为F1(v),F(v)的大小表征了用户v的直接号召力;72)计算影响范围R,将与中心点距离为2的所有节点集合起来,形成N2层,可见该层中的节点是F1(v)中各用户的粉丝集合,记为F2(v),以此类推,直到最大的一个同心圆NM层中,所有节点均为叶子节点为止,影响范围i为中心点距离节点的距离值;73)计算用户v的WR值,WR值定义为用户v的直接号召力与平均信息负荷量的乘积j表示信息由节点v能传递到的连通节点;dvj表示节点v与节点j之间的...

【专利技术属性】
技术研发人员:刘春阳张旭李雄王慧曹旭东
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1