一种基于动态图注意力胶囊网络的谣言检测方法与装置制造方法及图纸

技术编号：34183946 阅读：21 留言：0更新日期：2022-07-17 13:46

本发明专利技术公开了一种基于动态图注意力胶囊网络的谣言检测方法与装置，能够对社交媒体中的帖子进行谣言识别，从而提供给用户检测谣言的预判机制。本发明专利技术首先使用动态网络框架DYN对谣言传播过程中积累的评论以时间顺序进行划分，形成多个静态的以图为基础的子评论结构；然后利用图注意力胶囊网络模块GACN对每个子评论结构进行编码形成子结构分类胶囊，从而挖掘谣言文本的属性特征；最后设计分类胶囊注意力机制整合各子分类胶囊捕获谣言评论结构随时间动态演化过程中的动态交互特征，进而获得谣言检测结果。本发明专利技术能够有效挖掘谣言文本深层次的属性以及评论结构随时间演化的动态交互特征，提升了谣言检测任务的准确率。提升了谣言检测任务的准确率。提升了谣言检测任务的准确率。

A rumor detection method and device based on dynamic graph attention capsule network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态图注意力胶囊网络的谣言检测方法与装置

[0001]本专利技术涉及一种基于动态图注意力胶囊网络的谣言检测方法与装置，属于互联网与自然语言处理

技术介绍

[0002]社交媒体的快速发展改变了人与人日常交流的方式，但同时导致大量谣言的产生。谣言传播速度快、影响范围广，传播泛滥的谣言会严重污染社交网络环境的健康生态，降低用户获得高质量的信息的可能性。正确地识别谣言成为了学者乃至工业界重要的研究任务。
[0003]社交媒体中的谣言是指不法分子发布在社交媒体平台上针对公众关注的事件捏造出来吸引大众的没有事实依据的言论。早期对谣言的自动检测的方法主要使用机器学习技术来检测谣言，该方法首先从谣言数据集中提取能够有效表征数据文本的特征，例如用户特征，文本内容和传播模式特征，然后将这些特征输入到决策树、随机森林、支持向量机等机器学习模型中并进行模型的训练，从而达到分类的目的。此类方法依赖繁重、耗时的特征工程，同时人为构建的特征主观性较强且缺乏高阶的特征表示,故不能有效地抽取谣言深层次的特征。近年来，为了能够提取高阶...

【技术保护点】

【技术特征摘要】
1.一种基于动态图注意力胶囊网络的谣言检测方法，其特征在于，包括如下步骤：步骤1，数据集构建及特征处理，首先构建谣言检测数据集，然后对数据集中的文本进行数据预处理、数据编码操作；步骤2，构建图注意力胶囊网络模块，将图注意力网络GAT应用到谣言的以图为基础的子评论结构中进行聚合计算，得到每个文本节点的全局化特征表示；接着结合源文文本特征加强图节点表示，从而得到初级胶囊；然后使用节点归一化的方法生成归一化的初级胶囊来关注胶囊中重要性信息；最后借助胶囊网络中动态路由机制产生子分类胶囊；步骤3，构建动态网络框架，首先对谣言传播过程中积累的评论以时间顺序进行划分，形成多个静态的子评论结构；然后将每个子结构应用于图胶囊注意力网络模块继而获取子结构分类胶囊；最后设计分类胶囊注意力机制关注各子结构分类胶囊的重要性信息，从而完成最终的预测；步骤4，谣言检测模型训练，采用margin
‑
loss损失函数对模型进行训练，待训练结果趋于稳定时得到预测模型；步骤5，采集待检测的社交媒体帖子并进行模型预测。2.根据权利要求1所述的基于动态图注意力胶囊网络的谣言检测方法，其特征在于，所述步骤1具体包括如下过程：首先收集并整理目前主流的谣言检测数据集Twitter15和Twitter16中的数据；然后使用TF
‑
IDF技术对数据集中的文本建立词典库，并根据词频选取文本中频率较高的一定数量的单词对每个帖子进行编码；最后对于每个谣言事件，构造以图结构为基础的数据结构。3.根据权利要求1所述的基于动态图注意力胶囊网络的谣言检测方法，其特征在于，所述步骤2具体包括如下子步骤：子步骤2
‑
1，谣言图结构节点全局特征化表示，对于每个谣言事件c,依赖于评论之间和评论与源帖子之间的响应关系，构建在S
(t)
状态下以图为基础的子评论结构＜V
(t)
,E
(t)
＞，其中，表示图中的节点，x
r
是源帖子的节点，x
i
是评论的节点，E
(t)
代表节点之间的关系边的集合，n
(t)
‑
1表示S
(t)
下评论内容总数；使用TF
‑
IDF模型根据词频选取文本中频率较高的一定数量的单词对节点编码并作为初始特征向量，利用图注意力网络GAT获取全局化特征其中，p是图注意力网络的层数，N是图节点的个数，d
m
是经过每个图注意力层编码后隐藏向量维度的大小；子步骤2
‑
2，谣言源帖子编码，对于源帖子文本中的每个单词，使用Glove模型生成每个单词的词向量其中n
r
表示源帖子文本中单词的个数；采用Transformer中多头注意力机制衡量词语间的重要性程度，计算公式为：注意力机制衡量词语间的重要性程度，计算公式为：其中n
r
表示源帖子文本中单词的个数，h
r
是经过Transformer的Encoder模块编码之后的结果接着使用mean(
·
)函数对其所有单词的隐藏向量表示求取平均值，从而得到最终源帖子文本特征表示向量其中d
r
是源帖子特征维度的大小；子步骤2
‑
3，形成子结构分类胶囊，将Transformer提取源帖子特征r与GAT得到的每个节
点的全局特征融合以加强每个图节点的表示，从而得到加强后的节点特征表示计算公式为：A＝concat(H,r)H'＝Conv1d(A)将不同图网络层的同一位置的特征值进行拼接，从而得到向量形式的初级胶囊其中q是初始胶囊的数量，d
c
是初始胶囊的维度；使用节点归一化的方法在图网络层上生成注意力值α并应用到初级胶囊，从而得到归一化的初级胶囊U，公式如下：α＝FC2(FC1(H'))U＝α*H'采用胶囊网络中动态路由算法将归一化的初级胶囊转换成子结构的分类胶囊。4.根据权利要求3...

【专利技术属性】
技术研发人员：杨鹏，冷俊成，赵翰林，于晓潭，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人