当前位置: 首页 > 专利查询>苏州大学专利>正文

基于显式时间和级联注意力的信息流行度预测方法和系统技术方案

技术编号:35942830 阅读:41 留言:0更新日期:2022-12-14 10:32
本发明专利技术涉及社交网络及其应用领域,公开一种基于显式时间和级联注意力的信息流行度预测方法和系统,方法包括:提取观测级联样本中的级联图、级联序列和级联节点对应的转发时间序列,使用显式时间嵌入模型获取包含时间属性的节点特征向量;使用级联注意力网络建模级联图和级联序列得到级联表示,将级联表示输入多层感知机得到预测流行度,根据预测流行度和实际流行度值建立损失函数;使用观测级联样本训练整体模型,训练完成对待预测的级联样本进行预测;系统包括显式时间嵌入模块、级联注意力模块、回归模块、训练模块和预测模块。本发明专利技术有效捕获级联的时序性、充分捕获级联图和级联序列信息、提高预测效率和准确性。提高预测效率和准确性。提高预测效率和准确性。

【技术实现步骤摘要】
基于显式时间和级联注意力的信息流行度预测方法和系统


[0001]本专利技术涉及社交网络及其应用
,尤其是指一种基于显式时间和级联注意力的信息流行度预测方法和系统。

技术介绍

[0002]在线社交网络的流行在很大程度上改变了人们的日常生活,人们作为社交用户活跃于如微博、微信、Twitter等各个社交网络平台中。人们可以在平台上通过发布推文来分享有趣的信息或者参与其它推文的转发(repost)。而信息被用户不断转发的过程就形成了信息传播,其构成的结构被称为级联(cascade),如图1所示。
[0003]信息的流行度可以用级联的规模来衡量,即参与信息转发的用户数量。一条信息被发布出来,如果它吸引了大量的用户,即具有高流行度 (popularity),那么该信息的影响力是极大的。商家可以根据信息的流行度来做决策(如广告、推荐)以获取收益。因此,利用观测信息级联过程去预测其未来的流行度对商业、社会应用是具有重要意义的。
[0004]社交网络中的级联具有时效性,每个参与转发的用户都有相应的转发时间,短时间内存在大量转发行为的信息常具有高流行度,比如微博热搜话题下的推文在几小时内就可以得到成百上千的转发量,因此时间信息是影响级联流行度的重要因素之一。此外,如图1右侧所示,用户的转发具有结构性和顺序性,其分别对应级联传播图和级联序列信息。级联传播图是重要的级联角色信息,它由参与级联的用户和转发关系边组成,反映了用户之间的影响关系。譬如中心节点比叶节点更具有影响力而有助于贡献流行度。传播序列是由参与级联的节点按顺序构成的,它反映了用户被信息影响所产生转发行为的过程,其对流行度预测具有重要参考价值。综上所述,决定信息流行度大小的因素较多并且类型不同,如何有效地选择重要的类型信息甚至是统一所有类型信息去建模级联并准确预测流行度极具挑战。
[0005]对于流行度预测问题,现有的方法主要是基于深度学习(Deep Learning, DL)框架,此方法通常是对级联图进行路径采样或者子图划分,将其转化为节点或者子图序列的形式,以此来建模级联的时序性。对于节点序列,可以直接使用序列建模的方式来学习节点低维的向量表示;而对于子图序列,要先使用图表示学习方法学习子图的表示向量,再进行序列建模。接着,使用诸如注意力或者时间衰减的池化方法生成序列表示向量,该向量即代表了整个级联的潜在信息。最终使用级联表示向量做流行度回归预测。现有方法过程如图2所示,首先对样本集进行预处理,然后将其划分为训练集和测试集,训练集用于训练建立的深度学习流行度预测模型,训练时将流行度预测看作为回归任务,通过优化预测值和真实值的损失函数来更新DL模型;训练完成以后,将测试集输入到模型中预测测试级联样本的流行度值,这也对应实际应用的情况。
[0006]但是,用于级联流行度预测的深度学习这类方法也存在缺点,主要包括: (1)用户在参与转发过程时是具有时间信息的,即级联中的用户节点具有时间特性,而目前的方法对于时间信息的处理是隐式的或者式分离的,仅使用序列模型(如循环神经网络
(Recurrent Neural Network,RNN)及其变体) 去建模节点或者子图序列的时序性,这会丢失显式的时间信息;也有将时间作为单独的特征进行学习,然后与最后学习到的级联特征进行融合,这种分离式的处理方式不能反映节点在级联中的时序关系。(2)级联本身是具有级联图和级联序列两种角色信息的,但却没有得到完全的建模。现有的方法大都是针对级联图进行处理和建模,而忽略了级联序列信息。由于级联信息的缺失,往往不能取得好的预测效果。(3)现有的流行度预测模型非常依赖于对级联样本的预处理,即现有方法首先要将级联进行序列采样或者子图划分。序列采样方式由于自带的随机性和局部性而不能够捕获完整的图结构信息,而子图划分需要假设一个时间窗口大小,其没有统一的预定标准。并且,这些预处理方式都是复杂繁琐的,降低预测效率。

技术实现思路

[0007]为此,本专利技术所要解决的技术问题在于克服现有技术中的不足,提供一种基于显式时间和级联注意力的信息流行度预测方法和系统,可以有效捕获级联的时序性、充分捕获级联图和级联序列信息、提高预测效率和准确性。
[0008]为解决上述技术问题,本专利技术提供了一种基于显式时间和级联注意力的信息流行度预测方法,包括:
[0009]S1:提取观测级联样本中的级联图、级联序列和级联节点对应的转发时间序列,使用显式时间嵌入模型将所述转发时间转化为包含时间属性的向量,将所述包含时间属性的向量与节点自身的向量拼接得到特征向量;
[0010]S2:使用级联注意力网络映射所述级联图和级联序列得到级联表示;
[0011]S3:将所述级联表示输入多层感知机得到所述观测级联样本中每条信息的预测流行度,根据所述预测流行度和实际流行度值建立损失函数;
[0012]S4:使用所述观测级联样本训练所述显式时间嵌入模型、级联注意力网络和多层感知机,直到所述损失函数收敛停止训练得到训练完成的显式时间嵌入模型、级联注意力网络和多层感知机;
[0013]S5:将待预测的级联样本输入所述训练完成的显式时间嵌入模型、级联注意力网络和多层感知机得到预测结果。
[0014]作为优选的,所述提取观测级联样本中的级联图、级联序列和级联节点对应的转发时间序列,使用显式时间嵌入模型将所述转发时间转化为包含时间属性的向量,将所述包含时间属性的向量与节点自身的向量拼接得到特征向量,具体为:
[0015]S1

1:获取观测级联样本,根据所述观测级联样本中的每条信息p建立观测级联从中提取级联图和级联序列每个级联节点v
i
所对应的转发时间t
i
构成转发时间序列
[0016]S1

2:使用显式时间嵌入模型将所述转发时间序列转化为时间向量矩阵 H
t
,将所述时间向量矩阵H
t
与节点自身的特征矩阵X拼接得到新的特征矩阵
[0017]作为优选的,所述使用级联注意力网络映射所述级联图和级联序列得到级联表示,具体为:
[0018]所述级联注意力网络包括级联图注意力网络和级联序列注意力网络,使用所述级
联图注意力网络将所述级联图映射为级联图表示H
g
,使用所述级联序列注意力网络将所述级联序列映射为级联序列表示H
s
,拼接所述H
g
和 H
s
得到所述级联表示H
c

[0019]作为优选的,根据所述观测级联样本中的每条信息p建立观测级联从中提取级联图和级联序列每个级联节点v
i
所对应的转发时间t
i
构成转发时间序列具体为:
[0020]设置观测时间窗口[t0,t
b
),t0表示信息发布时间,t
b
表示观测时间;设置转发结束时间t
e
,t
e
满足本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于显式时间和级联注意力的信息流行度预测方法,其特征在于,包括:S1:提取观测级联样本中的级联图、级联序列和级联节点对应的转发时间序列,使用显式时间嵌入模型将所述转发时间转化为包含时间属性的向量,将所述包含时间属性的向量与节点自身的向量拼接得到特征向量;S2:使用级联注意力网络映射所述级联图和级联序列得到级联表示;S3:将所述级联表示输入多层感知机得到所述观测级联样本中每条信息的预测流行度,根据所述预测流行度和实际流行度值建立损失函数;S4:使用所述观测级联样本训练所述显式时间嵌入模型、级联注意力网络和多层感知机,直到所述损失函数收敛停止训练得到训练完成的显式时间嵌入模型、级联注意力网络和多层感知机;S5:将待预测的级联样本输入所述训练完成的显式时间嵌入模型、级联注意力网络和多层感知机得到预测结果。2.根据权利要求1所述的基于显式时间和级联注意力的信息流行度预测方法,其特征在于:所述提取观测级联样本中的级联图、级联序列和级联节点对应的转发时间序列,使用显式时间嵌入模型将所述转发时间转化为包含时间属性的向量,将所述包含时间属性的向量与节点自身的向量拼接得到特征向量,具体为:S1

1:获取观测级联样本,根据所述观测级联样本中的每条信息p建立观测级联从中提取级联图和级联序列每个级联节点v
i
所对应的转发时间t
i
构成转发时间序列S1

2:使用显式时间嵌入模型将所述转发时间序列转化为时间向量矩阵H
t
,将所述时间向量矩阵H
t
与节点自身的特征矩阵X拼接得到新的特征矩阵3.根据权利要求2所述的基于显式时间和级联注意力的信息流行度预测方法,其特征在于:所述使用级联注意力网络映射所述级联图和级联序列得到级联表示,具体为:所述级联注意力网络包括级联图注意力网络和级联序列注意力网络,使用所述级联图注意力网络将所述级联图映射为级联图表示H
g
,使用所述级联序列注意力网络将所述级联序列映射为级联序列表示H
s
,拼接所述H
g
和H
p
得到所述级联表示H
c
。4.根据权利要求2所述的基于显式时间和级联注意力的信息流行度预测方法,其特征在于:根据所述观测级联样本中的每条信息p建立观测级联从中提取级联图和级联序列每个级联节点v
i
所对应的转发时间t
i
构成转发时间序列具体为:设置观测时间窗口[t0,t
b
),t0表示信息发布时间,t
b
表示观测时间;设置转发结束时间t
e
,t
e
满足t
e
>>t
b
;定义信息p的流行度为增长流行度||表示集合的元素个数,表示信息的观测流行度,表示传播结束后信息的流行度;所述观测级联为v
i
表示观测级联中的节点,v
j
表示v
i
的后继转发节点,t
j
表示v
j
的转发时间,n表示节点数量;所述级联图为
表示级联中的转发节点集合,ε
p
表示级联中的转发边集合;按照节点参与级联的时间从小到大排序得到级联序列为小到大排序得到级联序列为将观测时间内节点根据转发时间所构成的线性序列作为转发时间序列5.根据权利要求2所述的基于显式时间和级联注意力的信息流行度预测方法,其特征在于:所述使用显式时间嵌入模型将所述转发时间序列转化为时间向量矩阵H
t
,具体为:建立转发时间t的线性函数f
l
(t)=w
l
t+b
l
,线性函数生成的时间向量为h
l
,w
l
表示f
l
(t)的可学习权重,b
l
表示f
l
(t)的可学习偏置;建立转发时间t的周期性函数f
p
(t)=cos(w
p
t+b
...

【专利技术属性】
技术研发人员:孙锡刚周经亚吴臻王杰
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1