一种面向社交网络的热点事件预测方法技术

技术编号:31487126 阅读:11 留言:0更新日期:2021-12-18 12:22
本发明专利技术属于热点事件预测技术领域,具体提供一种面向社交网络的热点事件预测方法,用以解决现有技术中文本数据价值挖掘不够、动态时序特征与上下文语义信息利用不充分等技术问题。本发明专利技术首先,基于图卷积神经网络捕捉文本邻域语义信息,能够充分挖掘关键词语之间的依存关系;其次,提出维度注意力机制,改进图神经网络的动态分层传播方式,通过维度注意力机制生成重点特征摘要,并将其用于缩放原特征,自适应地调整各个维度特征响应值,增加事件预测中有价值词语的权重,同时抑制价值较弱词语的权重,即充分捕捉社交网络文本时变信息;最终,基于关键词语邻域信息与时序信息充分挖掘文本数据价值,提高模型预测的准确率,具有实用价值。价值。价值。

【技术实现步骤摘要】
一种面向社交网络的热点事件预测方法


[0001]本专利技术属于热点事件预测
,涉及图神经网络在热点事件预测技术中的应用,具体提供一种面向社交网络数据的基于动态图神经网络的热点事件预测方法。

技术介绍

[0002]如今,社交网络已经逐渐渗入人们生活各个方面,包括社会、政治和经济等;社交网络开放性强、信息传播迅速,吸引了海量用户,成为公众发布社会消息、讨论现实事件的重要渠道;社交网络事件通常是现实事件在网络空间的映射,大量研究人员展开面向社交网络的热点事件预测研究。有学者从数学上将热点事件预测问题定义为预测一个可观测的事件在未来是否会成为热点,目前研究面向社交网络的热点事件预测任务主要包含以下三类:预测网络事件是否成为热点、预测事件在某个时间热度值、预测事件变热的概率,根据预测方法的不同将其分为基于传统机器学习和基于深度学习两种方法。
[0003]Suh等人针对单条推文流行度预测问题,基于用户信息、文本内容,利用主成分分析(PCA)与广义线性模型(GLM)寻找早期特征与转发数量之间的关系。Zhang等人则选择事件相关文本,用户兴趣、影响力以及历史流行度实现流行度线性函数建模,解决事件下一时刻流行度预测问题。目前现有研究事件预测问题大多围绕用户属性、级联关系等特征,较少研究考虑利用文本信息对热度变化进行建模。Geng等人提出一种基于推特数据的时空事件预测生成模型,该模型通过对结构背景和时空突发性联合建模,刻画未来事件的潜在发展。Deng等人提出的动态图卷积神经网络(DGCN)利用事件上下文,以动态图结构形式对节点信息建模,揭示节点之间隐藏的关联信息,分析单词之间隐藏时序联系,能够影响未来事件预测效果。
[0004]社交网络用户之间相互关注,构成错综复杂的网络结构,信息传播演变模式更加复杂,数据具有多维、多源和异构等特点,现有方法主要利用机器学习方法。基于传统机器学习方法多是特征驱动的,许多特征是由专家根据先验知识而精心设计的,该类方法性能较多依赖于特征表示,但没有明确统一设计、测量特征原则,存在丢失重要信息的可能性。而基于深度学习方法可解释性较差,难以直观描述事件热度变化的原因,不能充分捕捉社交网络中信息时变的活跃水平。此外,用户发布在社交网络的信息以文本内容为主,在以往针对热度预测问题的研究中,通常利用的文本信息只有事件或话题名称,没有充分利用社交网络文本数据;并且,文本数据价值稀疏,难以从中挖掘潜在有价值信息,事件文本内容更是随时间动态变化,应该充分考虑其时序特征。

技术实现思路

[0005]本专利技术的目的在于提供一种面向社交网络数据的基于图神经网络的热点事件预测方法,用以解决现有技术中文本数据价值挖掘不够、动态时序特征与上下文语义信息利用不充分等技术问题。
[0006]为实现上述目的,本专利技术采用的技术方案如下:
[0007]一种面向社交网络的热点事件预测方法,包括以下步骤:
[0008]步骤1、对源数据进行数据预处理得到文本数据,并对每条文本数据进行0、1分类标记,获得样本数据;
[0009]步骤2、根据预定时序将样本数据构建为带有节点特征的时序图结构数据,利用图卷积神经网络对时序图结构数据进行处理,通过图卷积模块进行卷积操作,获得聚合关键词语邻域信息的文本特征向量;
[0010]步骤3、通过维度注意力机制对步骤2所得文本特征向量进行编码,捕捉其时序相关性,获得聚合关键词语邻域信息与时序信息的文本特征向量;
[0011]步骤4、对步骤3所得文本特征向量进行可学习的线性变换,获得最终文本特征向量,并利用分类器进行分类预测计算,获得预测结果。
[0012]进一步的,所述步骤1具体包括如下步骤:
[0013]步骤1.1、对源数据集进行随机采样,再对采样后数据依次进行事件合并、噪声清洗、时序切分预处理,再利用jieba工具对文本进行分词处理,再利用TF

IDF方法对关键词语进行提取过滤,再利用GloVe算法对关键词语进行预训练、生成关键词语的初始特征向量,得到文本数据;
[0014]步骤1.2、将预测问题定义为事件是否变为热点的二分类任务,根据设定的事件转发量阈值对文本数据进行标签标记,类别标签包括0和1,获得具有标签的样本数据。
[0015]进一步的,所述步骤2具体包括如下步骤:
[0016]步骤2.1、设置时序k
t
,k
t
∈[1,T],T为时序切分的总数;
[0017]步骤2.2、根据点互信息(PMI)算法,计算关键词语之间的相互依存关系:
[0018][0019]其中,D
t
为时序内文本集合总数,d
t
(i,j)为在时序内关键词语i与关键词语j同时出现的文本总数,d
t
(i)与d
t
(j)分别为在时序内关键词语i与关键词语j至少出现一次的文本总数;
[0020]将关键词语以图结构的形式进行建模,构建带有节点特征的时序图结构,并将时序图结构以邻接矩阵的形式表示A
t

[0021][0022]步骤2.3、利用图卷积网络(GCN)模块对时序图结构中节点进行卷积处理,捕获邻域信息,获得图卷积编码的文本特征向量
[0023][0024]其中,g为ReLU激活函数,H
t
表示初始特征向量,表示邻接矩阵A
t
归一化处理后的对称邻接矩阵,W
(t)
、b
(t)
均为模型参数。
[0025]进一步的,所述步骤3具体包括如下步骤:
[0026]步骤3.1、基于维度注意力机制对文本特征向量进行编码,利用可学习的权重矩阵将上一时序文本特征向量与当前时序文本特征向量进行可学习的线性变换:
[0027][0028]其中,与为权重矩阵,与为模型参数;
[0029]再将变换结果以预定比例进行拼接组合,获得拼接文本特征向量
[0030]步骤3.2、利用全局平均池化方法计算文本特征向量各个维度的特征统计量:
[0031][0032]其中,F代表文本特征维度,n代表词语个数;表示关键词语j的第f维特征;
[0033]再利用激活函数处理特征统计量,获得文本特征摘要
[0034][0035]其中,σ则为sigmod激活函数,W1与W2均为权重矩阵;
[0036]步骤3.3、将文本特征摘要通过点乘运算对拼接特征向量进行缩放,获得文本特征向量
[0037][0038]进一步的,所述步骤4具体包括如下步骤:
[0039]步骤4.1、对文本特征向量进行可学习的线性变换,获得最终文本特征向量
[0040][0041]其中,W
T
为权重矩阵,b
T
为模型参数;
[0042]步骤4.2、利用分类器进行分类预测计算,获得预测结果:
[0043]与现有技术相比,本专利技术的有益效果在于:
...

【技术保护点】

【技术特征摘要】
1.一种面向社交网络的热点事件预测方法,包括以下步骤:步骤1、对源数据进行数据预处理得到文本数据,并对每条文本数据进行0、1分类标记,获得样本数据;步骤2、根据预定时序将样本数据构建为带有节点特征的时序图结构数据,利用图卷积神经网络对时序图结构数据进行处理,通过图卷积模块进行卷积操作,获得聚合关键词语邻域信息的文本特征向量;步骤3、通过维度注意力机制对步骤2所得文本特征向量进行编码,捕捉其时序相关性,获得聚合关键词语邻域信息与时序信息的文本特征向量;步骤4、对步骤3所得文本特征向量进行可学习的线性变换,获得最终文本特征向量,并利用分类器进行分类预测计算,获得预测结果。2.按权利要求1所述面向社交网络的热点事件预测方法,其特征在于,所述步骤1具体包括如下步骤:步骤1.1、对源数据集进行随机采样,再对采样后数据依次进行事件合并、噪声清洗、时序切分预处理,再利用jieba工具对文本进行分词处理,再利用TF

IDF方法对关键词语进行提取过滤,再利用GloVe算法对关键词语进行预训练、生成关键词语的初始特征向量,得到文本数据;步骤1.2、将预测问题定义为事件是否变为热点的二分类任务,根据设定的事件转发量阈值对文本数据进行标签标记,类别标签包括0和1,获得具有标签的样本数据。3.按权利要求1所述面向社交网络的热点事件预测方法,其特征在于,所述步骤2具体包括如下步骤:步骤2.1、设置时序k
t
,k
t
∈[1,T],T为时序切分的总数;步骤2.2、根据点互信息(PMI)算法,计算关键词语之间的相互依存关系:其中,D
t
为时序内文本集合总数,d
t
(i,j)为在时序内关键词语i与关键词语j同时出现的文本总数,d
t
(i)与d
t
(j)分别为在时序内关键词语i与关键词语j至少出现一次的文本总数;将关键...

【专利技术属性】
技术研发人员:田玲许毅惠孛张栗粽罗光春冀柯曦樊美琦
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1