当前位置: 首页 > 专利查询>黑龙江大学专利>正文

基于Skip-gram的信息传播预测模型制造技术

技术编号:34975616 阅读:34 留言:0更新日期:2022-09-21 14:16
本发明专利技术属于信息传播预测技术领域,具体涉及一种基于Skip

【技术实现步骤摘要】
基于Skip

gram的信息传播预测模型


[0001]本专利技术属于信息传播预测
,具体涉及一种基于Skip

gram的信息传播预测模型。

技术介绍

[0002]Twitter、新浪微博(Sina Weibo)、Facebook等在线社交平台的已经成为人们日常生活中的主要信息来源,能够准确预测一段时间后的信息扩散规模引起了学术界的广泛关注,这对抑制谣言信息传播、提升内容推荐等诸多下游应用发挥着至关重要的作用对于信息扩散预测,已经提出了许多方法,它主要分为三类:1)基于特征的方法:主要侧重于识别以及合并复杂的手工抽取的特征进行级联预测,例如时间特征、结构特征和内容特征等。它们的性能依赖于所提取的特征,而这些特征很难推广到新的领域;2)基于生成方法:将信息级联随时间的流行视为一个动态的时间序列拟合问题,从而基于各种强假设的某些宏观分布或随机过程得到发展。这些方法在很大程度上依赖于设计的自激机制和强度函数。这通常与现实世界有很大的差距,导致预测能力较差;3)基于深度学习的方法:近年来,深度学习在许多应用领域取得了巨大的成功;研究人员利用各种深度学习技术来捕获信息扩散的时间和顺序过程。例如,对网络拓扑结构建模进行信息传播预测,基于rnn的CRPP对时间信息进行建模进行信息扩散预测。
[0003]尽管在建模级联扩散方面有了明显的改进,但现有的深度学习方法仍然面临几个关键挑战:现有方法未能有效利用信息的动态扩散过程;级联网络的结构特征对于准确预测信息级联至关重要。然而,大多数方法未能充分获得结构特征,导致预测结果不理想。
[0004]有鉴于此,有必要提供一种新的信息级联预测模型。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中存在的至少一个上述问题,提供一种基于Skip

gram的信息传播预测模型,该模型试图捕捉信息级联的动态扩散过程并获得级联网络的结构特征. 为了捕获动态扩散过程,将级联图中每个扩散时间的扩散路径放入GRU中,以获得路径表示,将路径表示与扩散时间加权,然后合并所有路径表示.为了充分利用级联网络的结构特征,将级联图表示为一组随机游走路径然后将其输入到Skip

gram中得到节点表示,然后将所有节点表示合并。最后,将动态扩散过程与结构特征相结合,预测信息级联的增长规模。
[0006]为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:本专利技术提供一种基于Skip

gram的信息传播预测模型,该模型的框架将级联作为输入,预测级联图的增长规模作为输出,该模型主要包括四个部分:第一部分即扩散路径编码:根据观测到的级联扩散顺序,通过循环神经网络对扩散路径进行编码;
第二部分即时间效应:扩散路径编码后结合时间效应进一步提取级联表示;第三部分即结构建模:将随机游走采样的序列通过Skip

gram获得级联图的结构特征表示;第四部分即预测:将带有时间效应的级联表示和结构表示结合输入到多层感知机中进行级联规模预测。
[0007]进一步地,上述信息传播预测模型中,作为输入的级联,关于级联预测问题中“社交图”的定义为:给定一个社交网络图的快照G=(V,E),其中V是该社交图的节点集,EVV是节点的边集,一个节点可以是一个社交平台的一个用户或学术论文网络中的一篇论文,边则表示两个节点之间的关系,如转发或引用等。
[0008]进一步地,上述信息传播预测模型中,作为输入的级联,关于级联预测问题中“级联图”的定义为:假设社交网络中有M条消息,对于第i条消息使用级联图表示,每个级联图对应一个演化序列,使用级联来表示级联图在时间内的扩散过程,其中表示在时间内参与级联的用户,表示中用户之间的反馈关系(如转发或引用),则表示原始帖子发生转发的间隔时间;级联图的扩散过程,即,
……
,以此类推。
[0009]进一步地,上述信息传播预测模型中,作为输入的级联,关于级联预测问题中“增长规模”的定义为:消息或论文的转发或者引用的数量;给定一个级联,在观测时间窗口内,在给定固定时间间隔下,预测的增长规模,即。
[0010]进一步地,上述信息传播预测模型中,在扩散路径编码这个部分中,参与级联扩散的用户不仅会受到刚发生转发行为的用户影响,还会受到以前用户的影响;同样,之前的参与者也会对其直接转发者和间接转发者造成影响;用户A发布了一条消息,用户B转发了用户A的这条消息,用户D转发了用户B的这条消息,则这条消息的转发路径为A

B

D,用户A仍然对消息的传递产生影响;级联中的每个用户都能够在从开始到结束的整个扩散过程中影响其他用户;因此,对整个的级联扩散传播路径进行编码。
[0011]使用门控递归单元GRU对整个扩散路径进行编码;首先将扩散路径中的每个用户用一个one

hot向量表示,然后按照扩散路径的顺序将扩散路径中的第k个用户,记为,馈送到GRU单元,对其进行更新操作后更新隐藏状态,其中输出,输入,表示更新前的隐藏状态,为用户的维度,为隐藏状态的维度,GRU的更新公式如下:重置门的计算公式为:更新门的计算公式为:
隐藏状态通过以下公式计算:
[0012]其中,为sigmoid激活函数,,,,,,和,,是独立可训练的参数。
[0013]进一步地,上述信息传播预测模型中,在时间效应这个部分中,时间效应是级联信息扩散的普遍现象,在级联预测中发挥着重要作用;例如,微博中的帖子通常在发布后的第一时间被频繁转发,并且转发次数随着时间的推移而减少;假设一个级联其产生后的持续时间为t,则很容易知道其产生和每次转发或引用之间的时间间隔;得到级联图中每个用户转发的时间间隔,其中是用户v转发消息的时间,是帖子的原始发布时间;为了了解时间对级联的影响,采用以下时间衰减效应;假设观测的级联时间窗口[0,T],将时间窗口分割成大小相等的时间间隔,其中,,为每个扩散时间分配相应的时间间隔,计算t时刻转发的时间衰减效应相应的时间间隔:时间衰减效应的函数为:然后将得到的级联隐藏状态加入时间衰减效应,进一步得到求和,以获得级联的表示向量:
[0014]进一步地,上述信息传播预测模型中,在结构建模这个部分中,级联未来的规模很大程度上取决于谁是信息“传播者”,即当前级联图中的节点;因此,表示一个图的一种直接的方法是将其视为一组节点;然而,这种方法显然忽略了级联图中的结构信息,这对于预测扩散十分重要;有偏的随机游走考虑了广度优先和深度优先的采样策略,可以更好的捕获级联图的结构信息,因此将级联图表示为通过多个有偏的随机游走过程采样的一组级联路径,对于每个随机游走过程,首先通过以下概率对起始节点进行采样:
式中,表示平滑参数,表示级联中节点u的出度,表示全局图中u的度;是级联中的节点集;在起始节点之后,按照以下概率对邻居节点进行迭代采样: 式中,是级联图中的邻居集。
[0015]随机游走采样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Skip

gram的信息传播预测模型,其特征在于,该模型的框架将级联作为输入,预测级联图的增长规模作为输出,该模型主要包括四个部分:扩散路径编码:根据观测到的级联扩散顺序,通过循环神经网络对扩散路径进行编码;时间效应:扩散路径编码后结合时间效应进一步提取级联表示;结构建模:将随机游走采样的序列通过Skip

gram获得级联图的结构特征表示;预测:将带有时间效应的级联表示和结构表示结合输入到多层感知机中进行级联规模预测。2.根据权利要求1所述的信息传播预测模型,其特征在于:作为输入的级联,关于级联预测问题中“社交图”的定义为:给定一个社交网络图的快照G=(V,E),其中V是该社交图的节点集,EVV是节点的边集。3.根据权利要求1所述的信息传播预测模型,其特征在于:作为输入的级联,关于级联预测问题中“级联图”的定义为:假设社交网络中有M条消息,对于第i条消息使用级联图表示,每个级联图对应一个演化序列,使用级联来表示级联图在时间内的扩散过程,其中表示在时间内参与级联的用户,表示中用户之间的反馈关系(如转发或引用),则表示原始帖子发生转发的间隔时间。4.根据权利要求1所述的信息传播预测模型,其特征在于:作为输入的级联,关于级联预测问题中“增长规模”的定义为:消息或论文的转发或者引用的数量;给定一个级联,在观测时间窗口内,在给定固定时间间隔下,预测的增长规模,即。5.根据权利要求1所述的信息传播预测模型,其特征在于:在扩散路径编码这个部分中,使用门控递归单元GRU对整个扩散路径进行编码;首先将扩散路径中的每个用户...

【专利技术属性】
技术研发人员:刘勇任德栋张薇
申请(专利权)人:黑龙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1