当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于动态图注意力胶囊网络的谣言检测方法与装置制造方法及图纸

技术编号:34183946 阅读:13 留言:0更新日期:2022-07-17 13:46
本发明专利技术公开了一种基于动态图注意力胶囊网络的谣言检测方法与装置,能够对社交媒体中的帖子进行谣言识别,从而提供给用户检测谣言的预判机制。本发明专利技术首先使用动态网络框架DYN对谣言传播过程中积累的评论以时间顺序进行划分,形成多个静态的以图为基础的子评论结构;然后利用图注意力胶囊网络模块GACN对每个子评论结构进行编码形成子结构分类胶囊,从而挖掘谣言文本的属性特征;最后设计分类胶囊注意力机制整合各子分类胶囊捕获谣言评论结构随时间动态演化过程中的动态交互特征,进而获得谣言检测结果。本发明专利技术能够有效挖掘谣言文本深层次的属性以及评论结构随时间演化的动态交互特征,提升了谣言检测任务的准确率。提升了谣言检测任务的准确率。提升了谣言检测任务的准确率。

A rumor detection method and device based on dynamic graph attention capsule network

【技术实现步骤摘要】
一种基于动态图注意力胶囊网络的谣言检测方法与装置


[0001]本专利技术涉及一种基于动态图注意力胶囊网络的谣言检测方法与装置,属于互联网与自然语言处理


技术介绍

[0002]社交媒体的快速发展改变了人与人日常交流的方式,但同时导致大量谣言的产生。谣言传播速度快、影响范围广,传播泛滥的谣言会严重污染社交网络环境的健康生态,降低用户获得高质量的信息的可能性。正确地识别谣言成为了学者乃至工业界重要的研究任务。
[0003]社交媒体中的谣言是指不法分子发布在社交媒体平台上针对公众关注的事件捏造出来吸引大众的没有事实依据的言论。早期对谣言的自动检测的方法主要使用机器学习技术来检测谣言,该方法首先从谣言数据集中提取能够有效表征数据文本的特征,例如用户特征,文本内容和传播模式特征,然后将这些特征输入到决策树、随机森林、支持向量机等机器学习模型中并进行模型的训练,从而达到分类的目的。此类方法依赖繁重、耗时的特征工程,同时人为构建的特征主观性较强且缺乏高阶的特征表示,故不能有效地抽取谣言深层次的特征。近年来,为了能够提取高阶特征,许多深度学习技术被广泛应用到谣言检测领域中来。研究人员基于这些深度学习模型,例如CNN,RNN等,提出了许多谣言检测的模型。但是这些方法忽略了评论之间的结构关系,不能捕获到谣言的传播特征。近几年,GCN、GAT、GraphSage 等基于图结构的网络模型相继出现,引起了大量研究人员的广泛关注。Huang等人提出了基于图卷积神经网络的谣言检测模型,该模型综合考虑了谣言检测的内容、用户和传播三个方面,由三个模块组成,分别是用户特征编码器,传播树编码器以及整合两个模块输出的联结器。Tian等人提出了一种双向图卷积网络结构,该模型中组合了社交媒体文本的向上传播和向下传播模式,有效地捕获了谣言结构的全局特征。
[0004]如今图神经网络已被广泛应用于谣言检测领域,并实现了较好的检测性能,但是对于蕴含丰富文本属性特征的谣言来说,当谣言的传播结构从图神经网络学习到图嵌入时,每个文本节点被认为学习到多个单独的标量特征,而不是一个有相互依赖关系的特征向量,因此它们不足以有效地表达每个图节点以及谣言文本的更深层次的属性特征如文本位置信息和局部信息等。同时考虑到目前的谣言检测工作大多只聚焦于单一的图传播结构,对于受时间因素影响较大的谣言文本,此结构不能有效地捕捉到谣言评论结构随时间动态演化过程中的动态交互特征,继而限制了谣言检测模型性能的提升。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术提出了一种基于动态图注意力胶囊网络的谣言检测方法与装置,基于动态图注意力胶囊网络的谣言检测模型(DYN

GACN),能够有效地挖掘每个图节点和图结构深层次的属性特征,从而提升谣言文本的表示能力,同时动态网络框架使得模型能够捕获谣言评论结构随时间演化的动态交互特征。本专利技术方法涵盖社交
媒体谣言检测的全过程,主要包括数据集构建及特征处理、模型训练、对未知的帖子进行谣言分类等过程,从而能够有效地挖掘谣言文本深层次的属性以及评论结构随时间演化的动态交互特征,进而提升谣言检测的准确率。
[0006]本专利技术首先使用动态网络框架DYN对谣言传播过程中积累的评论以时间顺序进行划分,形成多个静态的以图为基础的子评论结构;然后利用图注意力胶囊网络模块GACN对每个子评论结构进行编码形成子结构分类胶囊,从而挖掘谣言文本的属性特征;最后设计分类胶囊注意力机制整合各子分类胶囊捕获谣言评论结构随时间动态演化过程中的动态交互特征,进而获得谣言检测结果。
[0007]为了达到上述目的,本专利技术提供如下技术方案:
[0008]一种基于动态图注意力胶囊网络的谣言检测方法,包括如下步骤:
[0009]步骤1,数据集构建及特征处理,首先构建谣言检测数据集,然后对数据集中的文本进行数据预处理、数据编码操作;
[0010]步骤2,构建图注意力胶囊网络模块,将图注意力网络GAT应用到谣言的以图为基础的子评论结构中进行聚合计算,得到每个文本节点的全局化特征表示;接着结合源文文本特征加强图节点表示,从而得到初级胶囊;然后使用节点归一化的方法生成归一化的初级胶囊来关注胶囊中重要性信息;最后借助胶囊网络中动态路由机制产生子分类胶囊;
[0011]步骤3,构建动态网络框架,首先对谣言传播过程中积累的评论以时间顺序进行划分,形成多个静态的子评论结构;然后将每个子结构应用于图胶囊注意力网络模块继而获取子结构分类胶囊;最后设计分类胶囊注意力机制关注各子结构分类胶囊的重要性信息,从而完成最终的预测;
[0012]步骤4,谣言检测模型训练,采用margin

loss损失函数对模型进行训练,待训练结果趋于稳定时得到预测模型;
[0013]步骤5,采集待检测的社交媒体帖子并进行模型预测。
[0014]进一步的,所述步骤1具体包括如下过程:
[0015]首先收集并整理目前主流的谣言检测数据集Twitter15和Twitter16中的数据;然后使用 TF

IDF技术对数据集中的文本建立词典库,并根据词频选取文本中频率较高的一定数量的单词对每个帖子进行编码;最后对于每个谣言事件,构造以图结构为基础的数据结构。
[0016]进一步的,所述步骤2具体包括如下子步骤:
[0017]子步骤2

1,谣言图结构节点全局特征化表示,对于每个谣言事件c,依赖于评论之间和评论与源帖子之间的响应关系,构建在S
(t)
状态下以图为基础的子评论结构<V
(t)
,E
(t)
>,其中,表示图中的节点,x
r
是源帖子的节点,x
i
是评论的节点,E
(t)
代表节点之间的关系边的集合,
n(t)

1表示S
(t)
下评论内容总数;使用TF

IDF模型根据词频选取文本中频率较高的一定数量的单词对节点编码并作为初始特征向量,利用图注意力网络GAT获取全局化特征其中,p是图注意力网络的层数,N是图节点的个数,d
m
是经过每个图注意力层编码后隐藏向量维度的大小;
[0018]子步骤2

2,谣言源帖子编码,对于源帖子文本中的每个单词,使用Glove模型生成每个单词的词向量其中n
r
表示源帖子文本中单词的个数;采用Transformer中
多头注意力机制衡量词语间的重要性程度,计算公式为:
[0019][0020][0021]其中n
r
表示源帖子文本中单词的个数,h
r
是经过Transformer的Encoder模块编码之后的结果接着使用mean(
·
)函数对其所有单词的隐藏向量表示求取平均值,从而得到最终源帖子文本特征表示向量其中d
r
是源帖子特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态图注意力胶囊网络的谣言检测方法,其特征在于,包括如下步骤:步骤1,数据集构建及特征处理,首先构建谣言检测数据集,然后对数据集中的文本进行数据预处理、数据编码操作;步骤2,构建图注意力胶囊网络模块,将图注意力网络GAT应用到谣言的以图为基础的子评论结构中进行聚合计算,得到每个文本节点的全局化特征表示;接着结合源文文本特征加强图节点表示,从而得到初级胶囊;然后使用节点归一化的方法生成归一化的初级胶囊来关注胶囊中重要性信息;最后借助胶囊网络中动态路由机制产生子分类胶囊;步骤3,构建动态网络框架,首先对谣言传播过程中积累的评论以时间顺序进行划分,形成多个静态的子评论结构;然后将每个子结构应用于图胶囊注意力网络模块继而获取子结构分类胶囊;最后设计分类胶囊注意力机制关注各子结构分类胶囊的重要性信息,从而完成最终的预测;步骤4,谣言检测模型训练,采用margin

loss损失函数对模型进行训练,待训练结果趋于稳定时得到预测模型;步骤5,采集待检测的社交媒体帖子并进行模型预测。2.根据权利要求1所述的基于动态图注意力胶囊网络的谣言检测方法,其特征在于,所述步骤1具体包括如下过程:首先收集并整理目前主流的谣言检测数据集Twitter15和Twitter16中的数据;然后使用TF

IDF技术对数据集中的文本建立词典库,并根据词频选取文本中频率较高的一定数量的单词对每个帖子进行编码;最后对于每个谣言事件,构造以图结构为基础的数据结构。3.根据权利要求1所述的基于动态图注意力胶囊网络的谣言检测方法,其特征在于,所述步骤2具体包括如下子步骤:子步骤2

1,谣言图结构节点全局特征化表示,对于每个谣言事件c,依赖于评论之间和评论与源帖子之间的响应关系,构建在S
(t)
状态下以图为基础的子评论结构<V
(t)
,E
(t)
>,其中,表示图中的节点,x
r
是源帖子的节点,x
i
是评论的节点,E
(t)
代表节点之间的关系边的集合,n
(t)

1表示S
(t)
下评论内容总数;使用TF

IDF模型根据词频选取文本中频率较高的一定数量的单词对节点编码并作为初始特征向量,利用图注意力网络GAT获取全局化特征其中,p是图注意力网络的层数,N是图节点的个数,d
m
是经过每个图注意力层编码后隐藏向量维度的大小;子步骤2

2,谣言源帖子编码,对于源帖子文本中的每个单词,使用Glove模型生成每个单词的词向量其中n
r
表示源帖子文本中单词的个数;采用Transformer中多头注意力机制衡量词语间的重要性程度,计算公式为:注意力机制衡量词语间的重要性程度,计算公式为:其中n
r
表示源帖子文本中单词的个数,h
r
是经过Transformer的Encoder模块编码之后的结果接着使用mean(
·
)函数对其所有单词的隐藏向量表示求取平均值,从而得到最终源帖子文本特征表示向量其中d
r
是源帖子特征维度的大小;子步骤2

3,形成子结构分类胶囊,将Transformer提取源帖子特征r与GAT得到的每个节
点的全局特征融合以加强每个图节点的表示,从而得到加强后的节点特征表示计算公式为:A=concat(H,r)H'=Conv1d(A)将不同图网络层的同一位置的特征值进行拼接,从而得到向量形式的初级胶囊其中q是初始胶囊的数量,d
c
是初始胶囊的维度;使用节点归一化的方法在图网络层上生成注意力值α并应用到初级胶囊,从而得到归一化的初级胶囊U,公式如下:α=FC2(FC1(H'))U=α*H'采用胶囊网络中动态路由算法将归一化的初级胶囊转换成子结构的分类胶囊。4.根据权利要求3...

【专利技术属性】
技术研发人员:杨鹏冷俊成赵翰林于晓潭
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1