【技术实现步骤摘要】
一种基于动态图注意力胶囊网络的谣言检测方法与装置
[0001]本专利技术涉及一种基于动态图注意力胶囊网络的谣言检测方法与装置,属于互联网与自然语言处理
技术介绍
[0002]社交媒体的快速发展改变了人与人日常交流的方式,但同时导致大量谣言的产生。谣言传播速度快、影响范围广,传播泛滥的谣言会严重污染社交网络环境的健康生态,降低用户获得高质量的信息的可能性。正确地识别谣言成为了学者乃至工业界重要的研究任务。
[0003]社交媒体中的谣言是指不法分子发布在社交媒体平台上针对公众关注的事件捏造出来吸引大众的没有事实依据的言论。早期对谣言的自动检测的方法主要使用机器学习技术来检测谣言,该方法首先从谣言数据集中提取能够有效表征数据文本的特征,例如用户特征,文本内容和传播模式特征,然后将这些特征输入到决策树、随机森林、支持向量机等机器学习模型中并进行模型的训练,从而达到分类的目的。此类方法依赖繁重、耗时的特征工程,同时人为构建的特征主观性较强且缺乏高阶的特征表示,故不能有效地抽取谣言深层次的特征。近年来,为了能够提取高阶特征,许多深度学习技术被广泛应用到谣言检测领域中来。研究人员基于这些深度学习模型,例如CNN,RNN等,提出了许多谣言检测的模型。但是这些方法忽略了评论之间的结构关系,不能捕获到谣言的传播特征。近几年,GCN、GAT、GraphSage 等基于图结构的网络模型相继出现,引起了大量研究人员的广泛关注。Huang等人提出了基于图卷积神经网络的谣言检测模型,该模型综合考虑了谣言检测的内容、用户和传播三个 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态图注意力胶囊网络的谣言检测方法,其特征在于,包括如下步骤:步骤1,数据集构建及特征处理,首先构建谣言检测数据集,然后对数据集中的文本进行数据预处理、数据编码操作;步骤2,构建图注意力胶囊网络模块,将图注意力网络GAT应用到谣言的以图为基础的子评论结构中进行聚合计算,得到每个文本节点的全局化特征表示;接着结合源文文本特征加强图节点表示,从而得到初级胶囊;然后使用节点归一化的方法生成归一化的初级胶囊来关注胶囊中重要性信息;最后借助胶囊网络中动态路由机制产生子分类胶囊;步骤3,构建动态网络框架,首先对谣言传播过程中积累的评论以时间顺序进行划分,形成多个静态的子评论结构;然后将每个子结构应用于图胶囊注意力网络模块继而获取子结构分类胶囊;最后设计分类胶囊注意力机制关注各子结构分类胶囊的重要性信息,从而完成最终的预测;步骤4,谣言检测模型训练,采用margin
‑
loss损失函数对模型进行训练,待训练结果趋于稳定时得到预测模型;步骤5,采集待检测的社交媒体帖子并进行模型预测。2.根据权利要求1所述的基于动态图注意力胶囊网络的谣言检测方法,其特征在于,所述步骤1具体包括如下过程:首先收集并整理目前主流的谣言检测数据集Twitter15和Twitter16中的数据;然后使用TF
‑
IDF技术对数据集中的文本建立词典库,并根据词频选取文本中频率较高的一定数量的单词对每个帖子进行编码;最后对于每个谣言事件,构造以图结构为基础的数据结构。3.根据权利要求1所述的基于动态图注意力胶囊网络的谣言检测方法,其特征在于,所述步骤2具体包括如下子步骤:子步骤2
‑
1,谣言图结构节点全局特征化表示,对于每个谣言事件c,依赖于评论之间和评论与源帖子之间的响应关系,构建在S
(t)
状态下以图为基础的子评论结构<V
(t)
,E
(t)
>,其中,表示图中的节点,x
r
是源帖子的节点,x
i
是评论的节点,E
(t)
代表节点之间的关系边的集合,n
(t)
‑
1表示S
(t)
下评论内容总数;使用TF
‑
IDF模型根据词频选取文本中频率较高的一定数量的单词对节点编码并作为初始特征向量,利用图注意力网络GAT获取全局化特征其中,p是图注意力网络的层数,N是图节点的个数,d
m
是经过每个图注意力层编码后隐藏向量维度的大小;子步骤2
‑
2,谣言源帖子编码,对于源帖子文本中的每个单词,使用Glove模型生成每个单词的词向量其中n
r
表示源帖子文本中单词的个数;采用Transformer中多头注意力机制衡量词语间的重要性程度,计算公式为:注意力机制衡量词语间的重要性程度,计算公式为:其中n
r
表示源帖子文本中单词的个数,h
r
是经过Transformer的Encoder模块编码之后的结果接着使用mean(
·
)函数对其所有单词的隐藏向量表示求取平均值,从而得到最终源帖子文本特征表示向量其中d
r
是源帖子特征维度的大小;子步骤2
‑
3,形成子结构分类胶囊,将Transformer提取源帖子特征r与GAT得到的每个节
点的全局特征融合以加强每个图节点的表示,从而得到加强后的节点特征表示计算公式为:A=concat(H,r)H'=Conv1d(A)将不同图网络层的同一位置的特征值进行拼接,从而得到向量形式的初级胶囊其中q是初始胶囊的数量,d
c
是初始胶囊的维度;使用节点归一化的方法在图网络层上生成注意力值α并应用到初级胶囊,从而得到归一化的初级胶囊U,公式如下:α=FC2(FC1(H'))U=α*H'采用胶囊网络中动态路由算法将归一化的初级胶囊转换成子结构的分类胶囊。4.根据权利要求3...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。