面向社交网络的信息流行度预测方法及系统技术方案

技术编号:18498001 阅读:24 留言:0更新日期:2018-07-21 20:37
本发明专利技术请求保护一种面向社交网络的信息流行度预测方法及系统,属于社交网络信息分析领域。本发明专利技术主要包括数据获取、属性提取、模型构建、预测分析四个主要步骤。首先,结合社交网络中用户关系和节点行为数据提炼信息传播网络。其次,从个体行为维度和节点交互维度出发,提取影响传播力度量的属性,并给出相关定义。重新构建双重加权社交网络,并基于改进的PageRank算法度量网络中的节点传播力。最后,以信息为中心,提取信息发布者的个体特征和信息发布一小时内的转发特征,利用LR分类器训练得到一种信息流行度预测模型,能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点。

Social network oriented information popularity prediction method and system

The invention requests to protect a social network oriented information popularity prediction method and system, belonging to the field of social network information analysis. The invention mainly includes four main steps: data acquisition, attribute extraction, model building and prediction analysis. First, the information dissemination network is extracted from the user relationship and node behavior data in social network. Secondly, from the perspective of individual behavior dimension and node interaction dimension, we extract the attributes that influence the intensity of communication and provide relevant definitions. The dual weighted social network is rebuilt and the propagation power of nodes in the network is measured based on the improved PageRank algorithm. Finally, information is taken as the center to extract the characteristics of the information publisher and the forwarding characteristics of information in one hour. A prediction model of information popularity is trained by LR classifier. It can effectively predict the popularity of information, discover network group events in time and identify important communication nodes in the information communication network.

【技术实现步骤摘要】
面向社交网络的信息流行度预测方法及系统
本专利技术属于社交网络分析领域,主要涉及社交网络中信息传播,具体针对信息流行度进行预测与分析。
技术介绍
在当前社交网络及Web2.0普及的时代,社交网站如Twitter、新浪微博等已成为人们获取信息和发表意见的重要平台。社交网络的信息共享性、实时性、互动性以及传播形式多样性使其在信息传播方面具有强大的影响力,如“马航MH370”、“美国总统选举”等事件在微博上引起全民关注等。鉴于社交网络信息传播对人们生活、社会发展的影响,近年来在线社交网络信息传播分析与预测逐渐得到研究者的重视。现有研究通常使用流行度来衡量信息在社交网络中的宏观传播效果。信息流行度指在一段时间内操作在社交网络某条信息上的网络行为的数量度量,如视频的观看量、微博的转发量等。目前社交网络信息流行度预测方法主要分为两类。一类是基于传染病的预测方法,该方法利用动力学演化方程组刻画不同类型节点随时间的状态演化关系,侧重于研究传播过程中个体在几个状态之间的重新分配,关注信息的整体传播情况。例如:Yang等人在《隐含网络中信息扩散建模》(Modelinginformationdiffusioninimplicitnetworks)中基于SIS模型的基础上提出了线性影响力模型,模型假设信息的传播受各节点影响力限制,建立每个节点的影响函数,此函数用以量化该节点对后续被激活节点的影响力,某时间处于活跃状态节点的影响力之和即为此时刻信息的流行度。另一类是基于分类或回归的预测方法,从影响信息传播的各个影响因素出发,构建并选择特征,从而训练基于分类或回归的预测模型,对信息流行度进行预测。例如:Bakshy等人在《每个人都是一个有影响力的人:量化Twitter中的用户影响力》(Everyone’saninfluencer:QuantifyinginfluenceonTwitter)中基于回归树模型进行信息流行度预测,发现平均被转发数、最大被转发数等特征与用户博文转发量呈现相关性,从而证明用户影响力能够影响信息的传播。但是社交网络中个体之间的连接关系并不是随机的,上述研究均忽略了节点之间的关系强弱差异,以及参与信息传播的个体之间的差异,例如具有很多条强关系的节点或者活跃度高的节点都会产生较大的影响力,促进信息的传播。如何从信息传播的角度在社交网络中发现高影响力节点,结合用户交互和网络结构分析社交网络中节点之间的差异性,是快速变化的网络时代信息决策的一个关键问题。因此,以网络节点影响力度量为切入点进行信息流行度预测建模具有一定的研究意义。本专利技术所解决的问题:针对社交网络中个体的差异性、用户关系具有强弱性等问题,本专利技术提出了一种面向社交网络的信息流行度预测方法。该方法结合信息发布者个体特征和早期信息传播特征预测信息最终的流行度,主要改进在于量化信息传播网络中的节点影响力,本专利技术提到的节点影响力包括节点之间的影响力和节点自身的影响力,利用节点间的交互刻画社交网络中用户关系的强弱,即节点之间的影响力;利用个体行为刻画用户的活跃度,即节点自身的影响力。总的来说,结合不同的节点影响力和网络拓扑结构提出一种节点传播力度量方法,从信息源驱动和早期信息感染群体驱动两个方面,更加准确地进行信息流行度的预测,为解决热点发现滞后、网络舆情监测实时性难以保证等问题提供思路。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种能够有效预测信息流行程度,及时发现网络群体事件并识别信息传播网络中的重要传播节点的面向社交网络的信息流行度预测系统及方法。本专利技术的技术方案如下:一种面向社交网络的信息流行度预测系统,包括:获取数据源模块、属性提取模块,所述获取数据源模块利用社交网络中的用户关系和节点行为数据,构建信息传播网络;属性提取模块,基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度,还包括信息流行度预测模型构建模块及流行度训练预测模块,所述信息流行度预测模型构建模块,用于构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测模块,用于将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。进一步的,所述属性提取模块从个体行为维度出发,提取用户相对活跃度,刻画用户作为网络中的个体在网络群体中的相对权重,定义相对活跃度为其中,Mi为用户提交消息总数,Ti为用户注册时间长度,表示网络中用户发布信息数的对数平均值,N为网络用户总数。进一步的,所述属性提取模块从节点交互维度出发,利用节点间交互次数定义用户间关注度为受重视度为综合这两个指标量化用户关系强度为其中,nab表示用户a→b的交互次数,同理,nba表示用户b→a的交互次数;Oa为所有用户a发出交互行为的用户集合,反之,Ia为所有用户a收到交互行为的用户集合;为网络中所有交互的对数均值。进一步的,所述信息流行度预测模型构建模块利用改进的PageRank算法度量双重加权社交网络中的节点传播力具体包括,首先将用户关系强度wij表示为边权重,将用户相对活跃度ai表示为节点权重,重新构建一个双重加权社交网络;然后对PageRank算法进行改进,根据公式:计算得到节点i的传播力TC(i),其中,TC(i)表示节点i的传播力,ai为节点相对活跃度,可以用来表示节点的传播可能性,N为网络节点个数,Ii为所有用户i收到交互行为的用户集合。进一步的,所述提取信息发布者的个体特征和信息发布n小时内的转发特征,利用LR分类器训练得到信息流行度预测模型具体包括;针对信息源传播驱动,提取信息发布者的个体特征,包括发文用户的节点传播力TC(m)、发文用户的认证状态STA(m);针对信息感染群体驱动,提取早期信息转发特征,包括信息一小时内被转发数一小时内转发用户的传播力之和一小时内转发用户的认证数之和其中Vret表示信息发布一小时内的转发用户集合,上述特征组合成模型输入将训练样本集中信息最终流行度ym∈{1,2,3,4}作为模型输出,训练LR分类器参数,构建信息流行度预测模型。进一步的,所述流行度训练预测模块对任意一条信息的流行度预测具体包括,对任一条信息m,以信息为中心从现有网络中找出信息发布者vpos∈V和早期信息感染群体提取信息发布者特征和信息发布一小时内的转发特征作为预测模型输入通过训练好的LR分类器预测信息的流行度ym,并根据节点传播力的排序识别重要传播节点。进一步的,所述n为1。一种基于所述系统的面向社交网络的信息流行度预测方法,其包括以下步骤:利用社交网络中的用户关系和节点行为数据,构建信息传播网络;基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提本文档来自技高网
...

【技术保护点】
1.一种面向社交网络的信息流行度预测系统,包括:获取数据源模块、属性提取模块,所述获取数据源模块利用社交网络中的用户关系和节点行为数据,构建信息传播网络;属性提取模块,基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度;其特征在于,还包括信息流行度预测模型构建模块及流行度训练预测模块,所述信息流行度预测模型构建模块,将上述提取属性用于构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测模块,用于将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。

【技术特征摘要】
1.一种面向社交网络的信息流行度预测系统,包括:获取数据源模块、属性提取模块,所述获取数据源模块利用社交网络中的用户关系和节点行为数据,构建信息传播网络;属性提取模块,基于节点行为数据从个体行为维度提取并定义用户相对活跃度,基于信息传播网络从节点交互维度出发,提取节点间交互次数并定义用户间关注度、受重视度;其特征在于,还包括信息流行度预测模型构建模块及流行度训练预测模块,所述信息流行度预测模型构建模块,将上述提取属性用于构建双重加权社交网络,并利用改进的PageRank算法度量双重加权社交网络中的节点传播力,改进的PageRank算法改进体现在:一是将原算法中的阻尼系数更改成1减去节点权重,表示节点不传播消息的概率,二是在原算法中融入节点的所有入边节点间的影响力,以刻画其他用户对该节点的信任和依赖程度,同时针对信息传播主要受信息源驱动和早期信息感染群体驱动的影响,提取信息发布者的个体特征和信息发布n小时内的转发特征,利用逻辑回归分类器训练得到信息流行度预测模型;流行度训练预测模块,用于将训练好的信息流行度预测模型对任意一条信息的流行度进行预测,发现网络中重要的传播节点。2.根据权利要求1所述的面向社交网络的信息流行度预测系统,其特征在于,所述属性提取模块从个体行为维度出发,提取用户相对活跃度,刻画用户作为网络中的个体在网络群体中的相对权重,定义相对活跃度为其中,Mi为用户提交消息总数,Ti为用户注册时间长度,表示网络中用户发布信息数的对数平均值,N为网络用户总数。3.根据权利要求1或2所述的面向社交网络的信息流行度预测系统,其特征在于,所述属性提取模块从节点交互维度出发,利用节点间交互次数定义用户间关注度为受重视度为综合这两个指标量化用户关系强度为其中,nab表示用户a→b的交互次数,同理,nba表示用户b→a的交互次数;Oa为所有用户a发出交互行为的用户集合,反之,Ia为所有用户a收到交互行为的用户集合;为网络中所有交互的对数均值。4.根据权利要求1或2所述的面向社交网络的信息流行度预测系统,其特征在于,所述信息流行度预测模型构建模块利用改进的PageRank算法度量双重加权社交网络中的节点传播力具体包括,首先将用户关系强度wij表示为边权重,将用户相对活跃度ai表示为节点权重,重新构建一个双重加权社交网络;然后对PageRank算法进行改进,根据公式:计算得到节点i的传播力TC(i),其中,TC(i)表示节点i的传播力,ai为节点相对...

【专利技术属性】
技术研发人员:肖云鹏柳靓云杜江刘宴兵张克毅李茜曦李晓娟孙华超
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1