一种基于双向图注意力网络的谣言检测方法与装置制造方法及图纸

技术编号：38716194 阅读：14 留言：0更新日期：2023-09-08 14:59

本发明专利技术公开了一种基于双向图注意力网络的谣言检测方法与装置，能够对社交媒体中的帖子进行谣言识别，该方法首先对源帖文本和评论文本进行词嵌入，并根据评论关系构建谣言的传播图；其次，本发明专利技术通过使用双向图注意力网络挖掘谣言传播的深层特征；最后通过多任务学习框架，构建谣言检测

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双向图注意力网络的谣言检测方法与装置

[0001]本专利技术涉及一种基于双向图注意力网络的谣言检测方法与装置，属于互联网与人工智能

技术介绍

[0002]社交媒体的快速发展方便了人与人之间的交流，但同时也滋生了很多谣言。由于社交媒体具有信息传播速度快、影响范围广的特点，使得谣言在社交媒体泛滥成灾，严重影响人们对正常信息的获取。并且人工辟谣成本高、效率低，不能及时对谣言进行判别。因此，社交媒体上自动进行谣言检测成为一个值得探究的任务。
[0003]早期对谣言检测的方法主要是依靠人工提取的特征进行自动检测，该方法首先从谣言数据集中提取到有利于表示谣言信息的特征，包括帖子文本特征、帖子传播特征和用户特征等。之后将这些人工提取的特征放入到传统机器学习模型，例如支持向量机、决策树、随机森林等模型中进行训练，最后输出谣言分类的结果。此类方法严重依赖于人工提取的特征，而这些特征的制作是劳动密集型的工程，需要耗费大量的时间和人力，同时这些人工制作的特征主观性较强只能获取到谣言浅层次的表征，无法学习到谣言深层次的特征。之后有许多研究者将深度学习的模型应用到谣言检测中。他们基于LSTM、CNN和RNN模型，提出了许多用于谣言检测的方法，将输入的数据流按照时间切片输入到深度学习模型中，提高了模型的精度，但这些模型忽略了评论的结构关系，无法有效捕捉到谣言广泛散布的特征。近几年，图神经网络的出现为谣言检测提供了新的解决方案。Huang等人提出了基于图卷积神经网络的谣言检测模型，该模型综合考虑了谣言检测的内容、用户和传...

【技术保护点】

【技术特征摘要】
1.一种基于双向图注意力网络的谣言检测方法，其特征在于，所述方法包括以下步骤：步骤1，使用RoBERTa模型对源帖和评论文本进行词嵌入并构建谣言传播图；步骤2，使用双向图注意力网络挖掘谣言传播图的深层特征；步骤3，构建谣言检测
‑
立场分类多任务模型，获得谣言检测结果。2.根据权利要求1所述的基于双向图注意力网络的谣言检测方法，其特征在于，步骤1具体包括如下子步骤：子步骤1
‑
1，对于谣言数据集的源帖和评论文本，使用RoBERTa模型提取特征，首先将输入文本以“<CLS>”和“<SEP>”标识符分隔开，其中“<CLS>”标识符放在句首位置，“<SEP>”标识符是语句间的分割符，且文本结尾也需要放置一个“<SEP>”标识符，输入的信息如下：[<CLS>,Sentence1,<SEP>,Sentence2,
…
,<SEP>]其中Sentence1和Sentence2分别代表评论文本的第一句话和第二句话，将句子中的token逐个加入到预训练RoBERTa模型中，经过RoBERTa模型编码后得到每个token的深层特征表示：R＝RoBERTa([<CLS>,Sentence1,<SEP>,Sentence2,
…
,<SEP>])从RoBERTa编码后的特征表示R中选取“<CLS>”位置上的向量R
CLS
作为文本内容抽取的深层特征，之后对所有源帖内容和评论内容进行传播图的构建，子步骤1
‑
2，构建谣言传播图，对于一个事件C
j
可以表示为可以表示为其中代表源帖子内容，表示第i
‑
1个响应帖子，响应帖子按照时间顺序排列，而对于G
j
代表的是谣言传播图，表示为G
j
＝{N
j
,E
j
}，N
j
代表的是谣言传播的节点，表示为E
j
代表评论动作，表示为代表评论动作，表示为如果节点N
s
评论了节点N
t
，则为1，否则为0，在传播图构建过程中，根据节点及节点间的评论关系，构建传播图的顶点和边，每个顶点的特征表示为词嵌入步骤中经RoBERTa模型编码后的特征。3.根据权利要求1所述的基于双向图注意力网络的谣言检测方法，其特征在于，步骤2具体包括如下子步骤：子步骤2
‑
1，计算谣言传播图中每个节点与邻居节点间的注意力得分，双向图注意力网络层的输入是一组节点特征，其中N为节点的数量，是所有节点的特征集合，F是每个节点的特征维数，双向图注意力网络层的输出是一组新的节点特征，新节点的特征维数可以与原节点的特征维数不同，在计算注意力分数之前，对节点的原始特征进行线性变换，将输入特征转换为更高级别的特征，首先，将全局共享权重矩阵W∈R
F
′×
F
作用于每个节点上，然后对每个节点及其所有邻居的使用自注意力机制来计算注意力得分:其中代表权重的计算方法，代表权重的计算方法，是节点i的所有出站方向邻居节点的集合，e
ij
表示节点i与出站方向邻居节点j之间的注意力分数，它的维数是节点线性变换后的特征维数的两倍，
·
T
代表转置操作，||代表拼接操作，同理，对于入站方向的每个
邻居节点k，它与节点i之间的注意力分数如下：子步骤2
...

【专利技术属性】
技术研发人员：杨鹏，杨彪，赵广振，李冰，
申请(专利权)人：浙江华巽科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人