一种基于概率扩散的信息级联流行度预测方法及系统技术方案

技术编号:38057235 阅读:9 留言:0更新日期:2023-06-30 11:22
本发明专利技术属于信息传播技术领域,公开了一种基于概率扩散的信息级联流行度预测方法及系统,基于神经常微分方程和扩散概率模型,来建模级联事件时间不规则性以及信息传播的不确定性,进行级联的流行度预测。首先,将信息级联数据构建为级联社交图,级联图以及级联序列,用于下游结构和序列模型的特征学习;然后,基于常微分方程和时间感知的门控机制得到级联隐式特征;在此基础上,从时空隐变量角度,结合条件扩散概率模型和隐式常微分方程,得到级联不确定的隐式特征;最后,利用级联隐式特征和级联不确定的隐式特征进行流行度预测。本发明专利技术可用于信息级联的连续时间状态建模和传播不确定性建模,能够更好地进行信息级联流行度预测。测。测。

【技术实现步骤摘要】
一种基于概率扩散的信息级联流行度预测方法及系统


[0001]本专利技术属于信息传播
,涉及信息级联流行度预测,尤其涉及深度学习(Deep Learning)中的信息扩散(Information Diffusion)和流行度预测(Popularity Prediction),是一种基于神经常微分方程(Neural Ordinary Differential Equations,NODEs)和扩散概率模型(Diffusion Probabilistic Model,DPM)的方法。

技术介绍

[0002]随着社交媒体的广泛使用,例如Twitter,新浪微博等,其已成为用户产生和传播信息并指导用户日常决策的主要信息来源之一。用户的转发或者分享行为促进了信息在社交平台上的快速传播,促使信息级联的产生,例如:用户的最初信息发布(例如,新闻,博文)以及其他用户分享转发形成了一条信息级联。信息级联流行度预测是通过观察信息早期阶段的传播演化过程(例如:转发用户和时间),预测某一条级联(推文、微博等)经过特定的一段时间后转发用户的规模。信息级联流行度的准确预测,有助于信息的快速、有效传播,可带来重大的经济和社会影响,这也得到了学术界和工业界的极大关注。在信息的传播过程中,通常存在两个重要的现象:级联事件的时间不规则性(例如:用户可以在任何时刻转发或者分享新闻、推文等)以及信息传播的内在不确定性。现有的信息级联流行度的准确预测方法主要分为三类:(1)概率生成模型:该方法通过使用时间点过程,例如泊松过程、霍克斯过程等,利用新出现的级联事件的强度函数来建模信息传播过程;(2)基于特征的模型,该方法通过探索设计级联结构、时间、用户属性和信息内容等特征进行级联流行度预测;(3)深度学习模型主要使用简单的事件序列模型,例如,循环神经网络(Recurrent Neural Network,RNN)、长短期记忆神经网络(Long Short

Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU),对级联事件进行建模。但是,现有的方法忽略了真实的信息扩散过程中存在级联事件的时间不规则性和信息传播的不确定性,从而导致难以实现对信息级联流行度的准确预测,预测效果不理想。

技术实现思路

[0003]本专利技术的目的是针对现有技术存在的上述技术问题,设计一套新颖的基于神经常微分方程和扩散概率模型的信息级联流行度预测方法及系统,仅利用级联的社交图和级联图的结构信息以及级联的扩散信息,模拟在信息传播过程中的级联事件时间不规则性以及信息传播的不确定性,提高级联流行度预测的准确率。
[0004]本专利技术的思路是构造一个基于神经常微分方程和扩散概率模型的框架来建模级联事件时间不规则性以及信息传播的不确定性,进行级联的流行度预测。首先,将搜集到的级联数据构建为级联社交图,级联图以及级联序列,用于下游结构和序列模型的特征学习;然后,设计一个新颖的时间感知神经常微分模块(Temporal Ordinary Differential Equations,T

ODE)建模级联事件的时间不规则性,通过将RNN中的离散特征状态推广到由ODE定义的连续时间动态。同时,通过门控机制考虑级联事件之间的输入信息和时间间隔信
息来更新级联的隐式状态,使学习到的级联特征能够更好地符合真实的信息传播过程。在此基础上,从时空隐变量角度,设计一个结合条件扩散概率模型和隐式常微分方程(Latent Ordinary Differential Equations)的级联不确定性建模模块(DPM

ODE),该模块同时考虑了级联演化(级联图的时间依赖性)的不确定性和用户空间关联(级联图的空间结构)的不确定性。在该模块中,条件扩散概率模型以连续时间级联特征为条件去近似用户结构特征的后验分布分数,从而重建级联的图结构特征来模拟用户空间关联的不确定性。条件概率扩散模型经过明确的级联结构生成训练,可以观察到的结构特征之间的有用的关联性。在此基础上,隐式常微分方程根据初始的级联状态的确定性演化定义了随时间推移的生成过程,同时获取了传播不确定性的级联特征。通过两个模块的设计,结合级联的连续时间动态和传播不确定的表示,输入进一个全连接层进行流行度预测。本专利技术实现了更新颖的流行度建模方式,提高了级联流行度预测的准确率。
[0005]基于上述专利技术思路,本专利技术提供了一种基于概率扩散的信息级联流行度预测方法,其包括以下步骤:
[0006]S1将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;
[0007]S2依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;
[0008]S3基于扩散概率模型,以步骤S2得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;
[0009]S4依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。
[0010]步骤S1中,将级联数据构建为社交图级联图以及级联序列。所述社交图主要由所有级联序列的用户组成。所述级联图主要由任一条级联序列的用户组成。
[0011]然后采用稀疏矩阵分解(SparseMatrixFactorization)学习级联全局社交图的结构属性,获得全局结构特征E
g
(参见C.Donnat,M.Zitnik,D.Hallac,and J.Leskovec,“Learning structural node embeddings via diffusion wavelets,”in SIGKDD,2018,pp.1320

132);采用图小波模型(Graph Wavelets)建模级联图获得节点相似性特征E
c
(参见J.Zhang,Y.Dong,Y.Wang,J.Tang,and M.Ding,“ProNE:fast and scalable network representation learning,”in IJCAI,Macao,China,Aug.10

16,2019,pp.4278

4284);最后对E
g
和E
c
进行拼接操作,获得用户的结构表示E。
[0012]由于人类反应行为具有随机性,信息的转发可能会出现在任何时刻,从而导致信息级联中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于概率扩散的信息级联流行度预测方法,其特征在于,包括以下步骤:S1将级联数据构建为社交图,级联图以及级联序列;然后依据级联全局社交图的结构属性,获得全局结构特征;依据级联图,获得节点相似性特征;之后对全局结构特征和节点相似性特征进行拼接操作,获得用户的结构嵌入表示;S2依据前一时刻的隐式状态和用户结构嵌入表示获取当前时刻的隐式状态;然后依据前一时刻隐式状态和当前时刻隐式状态,利用第一ODE求解器获得ODE隐式状态;再对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态;之后依据当前时刻隐式状态和级联隐式状态,基于时间感知的门控机制得到更新后的级联隐式状态,再经全连接输出级联隐式特征;S3基于扩散概率模型,以步骤S2得到的级联隐式特征为条件生成用户的目标级联结构嵌入表示,并进行重采样;然后使用第二ODE求解器在概率空间对重采样结果进行演化得到级联不确定的隐式特征;S4依据步骤S2得到的级联隐式特征和级联不确定的隐式特征拼接结果,对级联流行度进行预测。2.根据权利要求1所述的基于概率扩散的信息级联流行度预测方法,其特征在于,步骤S1中,将级联数据构建为社交图级联图以及级联序列;然后采用稀疏矩阵分解学习级联全局社交图的结构属性,获得全局结构特征E
g
;采用图小波模型建模级联图获得节点相似性特征E
c
;最后对E
g
和E
c
进行拼接操作,获得用户的结构表示E。3.根据权利要求1所述的基于概率扩散的信息级联流行度预测方法,其特征在于,上述步骤S2中,依据前一时刻的隐式状态和用户结构嵌入表示,利用LSTM单元获取当前时刻的隐式状态。4.根据权利要求1所述的基于概率扩散的信息级联流行度预测方法,其特征在于,步骤S2中,利用GRU单元对当前时刻隐式状态和ODE隐式状态,进行级联,获取级联隐式状态,h

i
=GRUCell(θ
g
,h

i
,z
i
),其中,是ODE从时刻t
i
‑1到时刻t
i
的一个解,h

i
是GRU单元更新后的级联隐式状态,θ
g
表示GRU单元中可学习的模型参数;给定隐式状态h

i
和h

i
,使用时间感知的门控机制来更新级联隐式状态h
i
:h
i
=ν
i

h

i
+(1

ν
i
)

h

i
,其中,表示时间门控。5.根据权利要求1所述的基于概率扩散的信息级联流行度预测方法,其特征在于,步骤S3包括以下分步骤:S31给定信息级联图和社交图以及结构特征E,获取初始的数据分布为q(E0),E0=E;S32基于扩散概率模型,前向过程通过向数据添加噪声逐渐将先验q(E0)转换为易于处理的高斯分布;通过扩散概率模型的逆过程,获取模型分布;通过对模型分布采样,获得用户结构嵌入E
ta
;S33依据用户结构嵌入E
ta
,获取初始级联状态然后基于变分自编码器重构初始级联

【专利技术属性】
技术研发人员:周帆程章桃肖哲徐增钟婷
申请(专利权)人:中国电子科技集团公司第五十四研究所喀什地区电子信息产业技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1