当前位置: 首页 > 专利查询>福州大学专利>正文

一种融合话题因子的信息传播预测模型及方法技术

技术编号:17780554 阅读:55 留言:0更新日期:2018-04-22 09:31
本发明专利技术提供一种融合话题因子的信息传播预测模型及方法,该模型包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型;一负采样算法组成模块;一融合话题因子的情感信息传播模型;数据基本假设模块;以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。本发明专利技术能够准确地预测不同话题帖子的被转发的传播路径,并能够应用于较大规模的级联数据集中。

【技术实现步骤摘要】
一种融合话题因子的信息传播预测模型及方法
本专利技术属于信息传播领域,更具体地涉及一种融合话题因子的信息传播预测模型及方法。
技术介绍
当前,有很多技术方法可用于信息传播预测的研究。传统的信息传播模型包括独立级联模型和线性阈值模型。在给定的某个时刻,两种模型中网络的节点存在两种状态,一种为活跃态,另一种为非活跃态,且非活跃态可以转为活跃态,反之不可以。两种方法都是通过设置激活阈值或激活概率直接判断用户间是否发生传播。该方法忽略了用户间的差异性,在一定程度上限制了模型的灵活性。当前,还提出了基于社会网络的信息传播机制研究和基于生存分析模型研究。其中,社会网络中的信息传播模型,结合了网络结构,提取与信息传播相关的用户特征和内容特征进行建模,包括用户自身影响力与活跃度、信息的内容、用户间的兴趣相似性、朋友帖子的内容等等。此外,近几年来,国内外研究学者开始尝试利用生存分析模型(SurvivalAnalysisModel)及其变体学习用户对间的传播速率(TransmissionRate),然后根据现有观察到的网络数据推断潜在的信息传播路径,使之与真实的信息传播路径的偏差尽可能小。特别地,假设用户间传播发生的概率取决于用户被感染的时间和用户之间的传播速率,通过最大化级联的似然学习用户间的传播概率。一般而言,用户对符合个人兴趣或能够引起强烈共鸣的话题帖子往往会更多地去对它们进行转发、分享和评论。不足的是,已有的多数模型只考虑连续时间下用户被感染的时间戳和用户对包含不同情感极性的微博内容可能表现出不同的感染行为,而忽略了关于消息内容谈论的话题也是预测信息在未来是否能够发生传播的重要因素。因此,人们迫切希望能有一种更加高效准确的信息传播预测方法,该方法利用帖子的话题分布来调节用户的影响力和易感性矩阵,进而改变用户间的传播速率,并加入负例采样的方法度量用户间传播概率,最后根据现有观察到的网络数据推断潜在信息传播路径。
技术实现思路
因此,本专利技术的目的是提出一种融合话题因子的信息传播预测,能够高效准确地进行预测,并且能够应用于更大规模的级联数据集的传播预测当中。为实现上述目的,本专利技术采用以下技术方案:一种融合话题因子的信息传播预测模型,其包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型Power-Law方法学习一组可观测的级联集合最小化的负对数似然函数;一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;一融合话题因子的情感信息传播模型学习用户的分布式表达算法;以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。在本专利技术一实施例中,还包括数据预处理模块;所述数据预处理模块在用户间转发关系和被转发关系未知的情况下,仅保留了用户被感染的时间序列作为初始级联数据集。在本专利技术一实施例中,数据基本假设模块,所述数据基本假设模块中设定:信息传播过程发生在静态网络上,该网络不会随着时间的变化而变化;如果某个未被感染的节点被它的第一个父节点所感染后,它将不会再次受到其他父节点的感染,并且被感染的节点只能感染未被感染的节点;用户间观点的传播由传播者的影响力和接受者的易感性共同决定。在本专利技术一实施例中,所述生存分析模型中通过函数进行采样,从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵,具体包括以下步骤:用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的;利用传播速率计算用户间的概率密度函数,之后的得到累积概率密度函数;然后引入生存分析模型,计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。在本专利技术一实施例中,给定的时间窗口内,对于一条级联,计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然,并在加入生存概率获得一条可观测到的级联的似然式子;假设级联之间互相独立,则一组可观测的级联集合最小化的负对数似然函数即为目标函数;对于目标函数中负例似然,以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有负例的情况。在本专利技术一实施例中,将影响力矩阵和易感性矩阵进行分块,分别得到正面影响力向量、负面影响力向量、正面易感性向量和负面易感性向量,然后采用带有投影的随机梯度下降法进行求解;在给定的网络,信息内容和初始传播状态后,将其应用于任务评估所提出的方法在预测信息传播过程的效果。本专利技术还提供一种融合话题因子的信息传播预测方法,其特征在于:包括以下步骤:步骤S1:对数据进行过滤,仅保留每条级联用户被感染的时间戳;步骤S2:首先定义用户间的传播速率函数由传播者的影响力矩阵和接受者的易感性矩阵组成,并加入了话题向量进行调整;在融合时间衰减因素的概率传播模型Power-Law中,计算概率密度函数和累积概率密度函数,最后利用生存分析模型构建生存函数,风险函数,并获得一组可观测的级联集合最小化的负对数似然函数;步骤S3:根据负例在一组级联中出现的频率分布对其进行采样;步骤S4:在给定的网络,信息内容和初始传播状态后,将其应用于任务评估所提出的方法在预测信息传播过程的效果。在本专利技术一实施例中,步骤S1中过滤规则包括:1).根据帖子的时效性,将前后转发超过一周时间后面的用户转发序列去掉;2).定义用户的活跃度为数据集中该用户转发他人的次数和该用户被他人转发的次数之和;3).选取数据集中用户活跃度超过某个阈值的用户作为种子用户,对于每条帖子转发关系链,按照活跃用户所占的比例从大到小排序后删除比例小的级联。在本专利技术一实施例中,步骤S3包括以下步骤:步骤S31:计算每个负例未归一化前的分布值,即在级联集合中出现的次数;步骤S32:统计所有负例的频率之和,并利用该值进行概率归一化;步骤S33:根据负例用户的id进行排序,并计算出相应的概率,以累积分布函数的形式排列在一条线段上;步骤S34:将线段均匀划分为m段,左端点0对应概率值为0,右端点m对应的概率值为1;将该线段与步骤S33中得到的线段进行映射后,得出每段区间所对应的负例用户编号;步骤S35:对0-m中的值进行随机抽样,获取该值相应的用户编号即为采样的负例,概率大小与负例频率的3/4次方成正比;步骤S36:按照预定的负例采样次数,不断执行步骤S35。与现有技术相比,本专利技术能够准确地预测不同话题帖子的被转发的传播路径,并能够应用于较大规模的级联数据集中。附图说明图1为本专利技术一实施例,在融合话题因子的信息传播预测原型系统的示意配置图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步解释说明。一种融合话题因子的信息传播预测模型,其包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型幂法则Power-Law方法学习一组可观测的级联集合最小化的负对数似然函数;一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;一融合话题因子的情感信息传播模型学习用户的分布式表达本文档来自技高网
...
一种融合话题因子的信息传播预测模型及方法

【技术保护点】
一种融合话题因子的信息传播预测模型,其特征在于:包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型Power‑Law来学习一组可观测的级联集合最小化的负对数似然函数;一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;一融合话题因子的情感信息传播模型,其学习用户的分布式表达算法;以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。

【技术特征摘要】
1.一种融合话题因子的信息传播预测模型,其特征在于:包括:一借助于LDA主题模型学习帖子的话题向量;一生存分析模型,其用于刻画用户行为,通过所述话题向量调整用户间的传播速率,并采用融合时间衰减因素的传播概率模型Power-Law来学习一组可观测的级联集合最小化的负对数似然函数;一负采样算法组成模块,用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性;一融合话题因子的情感信息传播模型,其学习用户的分布式表达算法;以及实验任务和对应的评价指标,该指标用于预测用户在潜在网络下对不同话题信息的传播行为。2.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:还包括数据预处理模块;所述数据预处理模块在用户间转发关系和被转发关系未知的情况下,仅保留了用户被感染的时间序列作为初始级联数据集。3.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:还包括数据基本假设模块,所述数据基本假设模块中设定:信息传播过程发生在静态网络上,该网络不会随着时间的变化而变化;如果某个未被感染的节点被它的第一个父节点所感染后,它将不会再次受到其他父节点的感染,并且被感染的节点只能感染未被感染的节点;用户间观点的传播由传播者的影响力和接受者的易感性共同决定。4.根据权利要求1所述的融合话题因子的信息传播预测模型,其特征在于:所述生存分析模型中通过函数进行采样,从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵,具体包括以下步骤:用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的;利用传播速率计算用户间的概率密度函数,之后的得到累积概率密度函数;然后引入生存分析模型,计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。5.根据权利要求4所述的融合话题因子的信息传播预测模型,其特征在于:给定的时间窗口内,对于一条级联,计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然,并在加入生存概率获得一条可观测到的级联的似然式子;假设级联之间互相独立,则一组可观测的级联集合最小化的负对数似然函数即为目标函数;对于目标函数中负例似然,以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有...

【专利技术属性】
技术研发人员:廖祥文陈国龙郑候东杨定达
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1