一种融合话题因子的信息传播预测模型及方法技术

技术编号：17780554 阅读：55 留言：0更新日期：2018-04-22 09:31

本发明专利技术提供一种融合话题因子的信息传播预测模型及方法，该模型包括：一借助于LDA主题模型学习帖子的话题向量；一生存分析模型；一负采样算法组成模块；一融合话题因子的情感信息传播模型；数据基本假设模块；以及实验任务和对应的评价指标，该指标用于预测用户在潜在网络下对不同话题信息的传播行为。本发明专利技术能够准确地预测不同话题帖子的被转发的传播路径，并能够应用于较大规模的级联数据集中。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合话题因子的信息传播预测模型及方法
本专利技术属于信息传播领域，更具体地涉及一种融合话题因子的信息传播预测模型及方法。
技术介绍
当前，有很多技术方法可用于信息传播预测的研究。传统的信息传播模型包括独立级联模型和线性阈值模型。在给定的某个时刻，两种模型中网络的节点存在两种状态，一种为活跃态，另一种为非活跃态，且非活跃态可以转为活跃态，反之不可以。两种方法都是通过设置激活阈值或激活概率直接判断用户间是否发生传播。该方法忽略了用户间的差异性，在一定程度上限制了模型的灵活性。当前，还提出了基于社会网络的信息传播机制研究和基于生存分析模型研究。其中，社会网络中的信息传播模型，结合了网络结构，提取与信息传播相关的用户特征和内容特征进行建模，包括用户自身影响力与活跃度、信息的内容、用户间的兴趣相似性、朋友帖子的内容等等。此外，近几年来，国内外研究学者开始尝试利用生存分析模型（SurvivalAnalysisModel）及其变体学习用户对间的传播速率（TransmissionRate），然后根据现有观察到的网络数据推断潜在的信息传播路径，使之与真实的信息传播路径的偏差尽可能小。特别地，假设用户间传播发生的概率取决于用户被感染的时间和用户之间的传播速率，通过最大化级联的似然学习用户间的传播概率。一般而言，用户对符合个人兴趣或能够引起强烈共鸣的话题帖子往往会更多地去对它们进行转发、分享和评论。不足的是，已有的多数模型只考虑连续时间下用户被感染的时间戳和用户对包含不同情感极性的微博内容可能表现出不同的感染行为，而忽略了关于消息内容谈论的话题也是预测信息在未来是否能够发生...
一种融合话题因子的信息传播预测模型及方法

【技术保护点】
一种融合话题因子的信息传播预测模型，其特征在于：包括：一借助于LDA主题模型学习帖子的话题向量；一生存分析模型，其用于刻画用户行为，通过所述话题向量调整用户间的传播速率，并采用融合时间衰减因素的传播概率模型Power‑Law来学习一组可观测的级联集合最小化的负对数似然函数；一负采样算法组成模块，用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性；一融合话题因子的情感信息传播模型，其学习用户的分布式表达算法；以及实验任务和对应的评价指标，该指标用于预测用户在潜在网络下对不同话题信息的传播行为。

【技术特征摘要】
1.一种融合话题因子的信息传播预测模型，其特征在于：包括：一借助于LDA主题模型学习帖子的话题向量；一生存分析模型，其用于刻画用户行为，通过所述话题向量调整用户间的传播速率，并采用融合时间衰减因素的传播概率模型Power-Law来学习一组可观测的级联集合最小化的负对数似然函数；一负采样算法组成模块，用于克服所有的负例限制了模型适用于大规模的数据和优化目标函数的平衡性；一融合话题因子的情感信息传播模型，其学习用户的分布式表达算法；以及实验任务和对应的评价指标，该指标用于预测用户在潜在网络下对不同话题信息的传播行为。2.根据权利要求1所述的融合话题因子的信息传播预测模型，其特征在于：还包括数据预处理模块；所述数据预处理模块在用户间转发关系和被转发关系未知的情况下，仅保留了用户被感染的时间序列作为初始级联数据集。3.根据权利要求1所述的融合话题因子的信息传播预测模型，其特征在于：还包括数据基本假设模块，所述数据基本假设模块中设定：信息传播过程发生在静态网络上，该网络不会随着时间的变化而变化；如果某个未被感染的节点被它的第一个父节点所感染后，它将不会再次受到其他父节点的感染，并且被感染的节点只能感染未被感染的节点；用户间观点的传播由传播者的影响力和接受者的易感性共同决定。4.根据权利要求1所述的融合话题因子的信息传播预测模型，其特征在于：所述生存分析模型中通过函数进行采样，从而初始化级联数据集中每个用户的影响力矩阵和易感性矩阵，具体包括以下步骤：用户间的传播速率函数由传播者的影响力矩阵、接受者的易感性矩阵、微博帖子的话题向量和情感极性共同组成的；利用传播速率计算用户间的概率密度函数，之后的得到累积概率密度函数；然后引入生存分析模型，计算用户未受到其他已被感染的用户影响的生存函数和受到其他已被感染的用户影响的风险函数。5.根据权利要求4所述的融合话题因子的信息传播预测模型，其特征在于：给定的时间窗口内，对于一条级联，计算非源节点用户在某个时刻被感染的似然和一条可观测的传播级联的联合似然，并在加入生存概率获得一条可观测到的级联的似然式子；假设级联之间互相独立，则一组可观测的级联集合最小化的负对数似然函数即为目标函数；对于目标函数中负例似然，以一组级联中负例用户在真实信息传播中被感染的频率进行概率抽样替换原有方法考虑了所有...

【专利技术属性】
技术研发人员：廖祥文，陈国龙，郑候东，杨定达，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人