当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于全局传播结构及情感特征的谣言检测方法技术

技术编号:38351264 阅读:11 留言:0更新日期:2023-08-05 17:24
本申请提供了一种基于全局传播结构及情感特征的谣言检测方法,包括:准备训练样本集,将具有强相关性的源帖们聚类起来组成一张全局拓扑图,全局拓扑图中根节点为待检测源帖,子节点为同事件源帖及其评论,通过分析帖子内含的情感属性,我们将其对应的情感特征融入到全局拓扑图中,再通过图卷积神经网络模型获得聚合了节点信息的全局图特征;利用交叉注意力层获取待检测源帖和评论文本间的交互特征;将交互特征和全局图特征拼接融合在一起,并通过softmax线性分类层得到样本的预测标签,将样本的预测标签与实际的谣言类别进行拟合,形成目标函数优化模型的学习结果,得到训练完成的基于全局传播结构及情感特征的谣言检测模型GEGCN。GEGCN。GEGCN。

【技术实现步骤摘要】
一种基于全局传播结构及情感特征的谣言检测方法


[0001]本专利技术涉及深度学习
,尤其是指一种基于全局传播结构及情感特征的谣言检测方法。

技术介绍

[0002]随着互联网技术的快速更新迭代,社交媒体成了谣言滋生孵化以及快速散播的温床。
[0003]谣言,由于其高传播性和隐蔽性,很容易快速覆盖大规模人群,从而将公众注意力从真相事实转移到虚假信息上,这不利于秩序稳定和社会发展。谣言是指没有事实基础作依托,被人为恶意捏造出来,并通过一定手段推动传播的言论。
[0004]前些年,科研人员们主要基于统计的知识来发现谣言传播的规律。但由于人工成本极大,所以相关技术未能延续发展至今。
[0005]现在,随着深度学习技术的繁荣,越来越多的科学家在考虑以深度学习为主,搭建一个更先进的谣言检测框架。深度学习的目标是学习样本数据中的内在规律和高层次表示,它最终可以助力谣言检测器拥有分析学习的能力,自动化地识别出网络信息的真伪。
[0006]因为谣言主要的表现形式是文本,所以大部分的研究工作主要集中在文本语义挖掘、统计分析和特征聚类等方面。科研人员们通常会直接采用神经网络模型(深度学习技术之一)对谣言文本进行编码,然后利用线性分类器进行训练和分类。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:他们往往忽视了谣言传播的结构信息,以及评论信息中隐藏的情感特征。谣言和非谣言的传播模式是具有极大差异的,同时针对谣言的评论文本情感也经常带有更浓重的感情色彩,其目的是为了激起和操纵浏览者的情绪,从而造成更大范围的传播。
[0007]Bian等人提出了一种基于图模型的谣言检测模型(BiGCN),该模型虽然考虑了结构信息,但却主要面向局部的会话结构信息,未考虑全局的跨样本的谣言传播结构信息,同时也忽视了评论文本中被视为重要分类线索的情感特征。Sun等人提出了一种名为GACL的图模型,其虽然捕捉了谣言和非谣言会话结构的模式差异,同时也采用了先进的BERT作为编码器。但GACL也忽视了文本情感在图嵌入表示学习中的重要性,以及全局传播结构特征。
[0008]在实际的应用场景中,大多数模型直接对谣言文本进行编码和分类,为了更贴近现实,有些模型也考虑将谣言局部会话结构特征融合进来。但是,他们往往忽视了跨样本的全局传播结构特征和文本中潜在的情感特征。已有文献证明,全局结构特征和情感特征均是正确分类谣言的重要线索。因此,如何有效地利用文本情感,并将其融合到全局的谣言传播结构中以生成更高质量的谣言图表示,是重要的研究课题。

技术实现思路

[0009]为此,本专利技术所要解决的技术问题在于提供一种基于全局传播结构及情感特征的谣言检测方法,以解决现有谣言检测方法无法充分利用全局传播结构特征和文本潜在的情
感特征来辅助模型识别的问题。
[0010]为解决上述技术问题,本专利技术提供了一种基于全局传播结构及情感特征的谣言检测方法,包括:准备训练样本集,每个训练样本中包括一个源帖及其对应的多个评论文本;通过计算待检测源帖与所述训练样本集中的源帖之间的余弦相似度将同事件源帖聚合在一起,从而构造成一张跨样本的全局拓扑图,利用预训练好的情感分析模型来推理所述全局拓扑图中节点的情感属性;采用线性融合方法将所述全局拓扑图中每个节点的情感特征和节点的原始特征进行融合,将所述融合情感后的全局拓扑图输送到带有残差连接的图卷积神经网络模型中,获得聚合了节点信息的全局图特征;利用预训练BERT对待检测源帖和评论进行编码,然后将对应编码后的特征输入交叉注意力层,以此来学习待检测源帖文本和评论文本间的交互关系,得到待检测源帖与其评论的交互特征;将所述交互特征和所述全局图特征拼接融合在一起,并通过softmax线性分类层得到所述待检测源帖的预测标签;通过将所述待检测源帖的预测标签与实际的谣言类别进行拟合,形成目标函数优化模型的学习结果,得到训练完成的基于全局传播结构及情感特征的谣言检测模型GEGCN,用于后续的谣言检测任务。
[0011]优选地,所述训练样本集是利用爬虫技术从推特网站上抽取开源数据集Twitter16中每个会话线程所对应的结构数据。
[0012]优选地,所述计算待检测源帖与训练样本集中的源帖之间的余弦相似度将同事件源帖聚合在一起,构造一张跨样本的全局拓扑图,包括:
[0013]计算待检测源帖与所述训练样本集中的源帖之间的余弦相似度,该数值大于等于0.8,两个源帖则属于同事件,该数值小于0.8,两个源帖则属于不同事件;
[0014]所述跨样本的全局拓扑图中的根节点为待检测源帖,子节点为待检测源帖对应评论、同事件源帖及其评论。
[0015]优选地,所述情感分析模型推理得到全局拓扑图中每个节点的情感属性,然后再和帖子的原始特征融合在一起获取全局图特征包括:
[0016]使用预训练的VADER模型来推理全局拓扑图中每个节点的情感属性,并将其编码到高维空间;
[0017]所述全局拓扑图中节点的原始特征由预训练的BERT模型进行编码生成;
[0018]采用线性融合方法将所述全局拓扑图中节点的情感特征和节点的原始特征进行融合,获取融合情感特征的全局拓扑图;
[0019]将所述融合情感后的全局拓扑图输送到带有残差连接的图卷积神经网络模型中,获得聚合了节点信息的全局图特征。
[0020]优选地,所述利用交叉注意力层从纯文本角度去学习源帖文本和评论文本间的交互关系交互关系包括:
[0021]利用预训练BERT对待检测源帖及其评论进行编码,获得源帖的特征和其对应的评论的特征;
[0022]所述源帖特征和其对应的评论的特征经过一个交叉注意力模块,获得交互后的新特征。
[0023]优选地,将所述交互后的新特征和所述全局图特征拼接融合在一起构成用于训练和分类的最终特征,包括:
[0024]充分考虑谣言传播的全局结构信息以及会话帖子中隐藏的情感属性,将所述全局图特征和交互特征通过softmax线性分类层得到待检测源帖的预测标签;
[0025]将所述待检测源帖的预测标签与实际的谣言类别进行拟合,形成目标函数优化模型的学习结果;
[0026]所述拟合过程指的是基于交叉熵损失来调整模型中可训练的参数,同时采用随机梯度下降算法进行拟合;
[0027]得到训练完成的基于全局传播结构及情感特征的谣言检测模型GEGCN,用于后续的谣言检测任务。
[0028]本专利技术还提供了一种基于全局传播结构及情感特征的谣言检测装置,包括:
[0029]样本提取模块,用于获取训练样本集,每个训练样本中包括一个源帖及其对应的多个评论文本;
[0030]全局拓扑图获取模块,通过计算待检测源帖与所述训练样本集中的源帖之间的余弦相似度将同事件源帖聚合在一起,从而构造成一张跨样本的全局拓扑图,所述全局拓扑图中的根节点为待检测源帖,子节点为待检测源帖对应评论、同事件源帖及其评论;
[0031]情感分析模块,利用预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局传播结构及情感特征的谣言检测方法,其特征在于:准备训练样本集,每个训练样本中包括一个源帖及其对应的多个评论文本;通过计算待检测源帖与所述训练样本集中的源帖之间的余弦相似度将同事件源帖聚合在一起,从而构造成一张跨样本的全局拓扑图,所述全局拓扑图中的根节点为待检测源帖,子节点为待检测源帖对应评论、同事件源帖及其评论;利用预训练好的情感分析模型去推理所述全局拓扑图中节点的情感属性;采用线性融合方法将所述全局拓扑图中每个节点的情感特征和节点的原始特征进行融合,将所述融合情感后的全局拓扑图输送到带有残差连接的图卷积神经网络模型中,获得聚合了节点信息的全局图特征;利用预训练BERT对待检测源帖和评论进行编码,然后将对应编码后的特征输入交叉注意力层,以此来学习待检测源帖文本和评论文本间的交互关系,得到待检测源帖与其评论的交互特征;将所述交互特征和所述全局图特征拼接融合在一起,并通过softmax线性分类层得到所述待检测源帖的预测标签;通过将所述待检测源帖的预测标签与实际的谣言类别进行拟合,形成目标函数优化模型的学习结果,得到训练完成的基于全局传播结构及情感特征的谣言检测模型GEGCN,用于后续的谣言检测任务。2.根据权利要求1所述的基于全局传播结构及情感特征的谣言检测方法,其特征在于:所述训练样本集是利用爬虫技术从推特网站上抽取开源数据集Twitter16中每个会话线程所对应的结构数据。3.根据权利要求1所述的基于全局传播结构及情感特征的谣言检测方法,其特征在于:所述余弦相似度数值大于等于0.8,则两个源帖属于同事件,所述余弦相似度数值小于0.8,则两个源帖属于不同事件。4.根据权利要求1所述的基于全局传播结构及情感特征的谣言检测方法,其特征在于:所述全局拓扑图中节点的原始特征由预训练的BERT模型进行编码生成。5.根据权利要求1所述的基于全局传播结构及情感特征的谣言检测方法,其特征在于:所述情感分析模型是使用VADER来推理全局拓扑图中每个节点的情感属性。6.根据权利要求1所述的基于全局传播结构及情感特征的谣言检测方法,其特征在于:所述目标函...

【专利技术属性】
技术研发人员:孙铁凝周海兵钱忠
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1