基于图证据的可解释性虚假新闻检测方法技术

技术编号：40092987 阅读：12 留言：0更新日期：2024-01-23 16:30

本发明专利技术公开了基于图证据的可解释性虚假新闻检测方法，包括以下步骤：收集各种新闻；将虚假新闻检测任务表述为一个二分类问题；以离线方式对新闻构建证据图；收集历史新闻的表示，建立正负例证据图；给出测试新闻，转发给多视图特征提取和学习模块，得到多视图特征；通过引用证据图得到匹配分数；然后将多视图特征和匹配分数相结合并用于预测；通过引用相应的证据图来检索预测的解释；给定一条待检测的新闻，将新闻和证据图进行比较，以生成匹配分数和相关的图证据，并预测该新闻为假新闻或真新闻。本发明专利技术利用历史标记数据构建的证据图；提出了一种从现有标记数据构建证据图的新方法，可用于在新消息出现时提供指导并提供明确的解释。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网信息处理，尤其涉及基于图证据的可解释性虚假新闻检测方法。

技术介绍

1、随着电子技术、多媒体平台和自媒体的快速发展，人们现在更依靠智能手机上的社交媒体应用程序来获取新闻，而不是传统的电视和广播。一方面，这种转变使人们能够更快、更有效地获取信息。另一方面，它也为虚假新闻或谣言的产生和传播提供了便利。

2、目前，已建立的事实核查平台，如politifact和snopes，主要侧重于验证声明的真实性。在这些平台上手工标注错误信息需要大量的人力，很难满足实时虚假新闻检测的需求，往往在被识别之前会导致广泛的扩散。因此，近年来，自动假新闻检测系统获得了大量的研究兴趣和关注。

3、现有的虚假新闻检测方法大致可以分为基于上下文和基于内容两大类。前一类方法将任务建模为推理过程，其中外部背景用于帮助探索给定声明的准确性，例如社会背景或文本背景。社会语境是指用户简介、社交活动和传播网络，而文本语境通常是从知识图谱或事实核查网站中检索到的额外事实来源。尽管基于上下文的方法由于外部资源而具有初步的可解释性，但这种上下文并不总是可用的。因此，越来越多的方法开始采用基于内容的范式，该范式侧重于使用新闻内容，而不假设有明确的外部资源可用性。他们从新闻内容中提取有用的特征，如文本模式、语义信息和情感信号，并将其转发给神经模型来预测真实性。然而，这些基于内容的方法缺乏可解释性和结果可能不值得信任。尽管有一些人试图通过使用注意机制来寻找新闻内容中可以证明结果的重要部分来缓解这一问题，但可解释性仍然很弱，在某些情况下解释可能会令人困惑。

4、此外，研究表明，虚假新闻具有随时间反复出现的特征。以前被判定为虚假的部分新闻往往在一段时间后重新浮出水面。然而，现有的虚假新闻检测方法无法充分利用这种递归性来帮助进行预测，因为它们采用的是深度神经网络，由于新数据不断流入检测模型，因此会遭受灾难性遗忘。

技术实现思路

1、有鉴于此，为了解决上述问题，本专利技术提出了一个基于图证据的可解释虚假新闻检测框架ika。本专利技术属于基于内容类型，因为不需要外部资源。然而，受到虚假新闻反复出现的启发，从历史新闻中收集证据(即用于训练模型的标记数据)，以帮助预测新声明的真实性。具体来说，从标记的数据中构造正、负例证据图。当遇到待检测的新闻时，将新闻与证据图进行对比，在证据图中寻找相关证据，这不仅计算出预测新闻真实性的匹配向量，更重要的是为预测提供了明确的解释，从而提高了模型的可解释性。与现有的基于内容的方法类似，本专利技术从新闻内容中提取多视图特征，学习并组合特征表示，并根据这些表示预测真实性得分，除此之外，本专利技术还集成了匹配向量进行预测。值得注意的是，本专利技术对多视图特征学习模块的方法选择是灵活的，并且可以应用在现有方法上来提高其可解释性。

2、为实现上述目的，本专利技术公开的基于图证据的可解释性虚假新闻检测方法，包括以下步骤：

3、收集各种新闻；

4、将虚假新闻检测任务表述为一个二分类问题，将社交媒体上的新闻分为假新闻和真新闻；

5、以离线方式对新闻构建证据图；收集历史新闻的表示，即训练数据，建立正负例证据图；

6、给出测试新闻，转发给多视图特征提取和学习模块，得到多视图特征；通过引用证据图得到匹配分数；然后将多视图特征和匹配分数相结合并用于预测；通过引用相应的证据图来检索预测的解释；

7、给定一条待检测的新闻，将新闻和证据图进行比较，以生成匹配分数和相关的图证据，并预测该新闻为假新闻或真新闻。

8、进一步地，每条新闻都包含内容和一组相关评论；为每个新闻分配一个ground-truth标签y∈{0,1}，其中1或0分别表示新闻是假的或真实的；给定一组训练数据，任务旨在预测测试集中新闻的真实性。

9、进一步地，通过图构造进行预处理，具体包括：

10、使用固定大小的滑动窗口来识别图中每个单词之间的连通性，每个窗口的中心词与该窗口的剩余词相连接，如果连接，则邻接矩阵中对应的条目为1；否则为0，它捕获中心词周围的本地上下文；

11、此外，将所有相同的单词合并到图中的一个节点中，该节点显式地聚合了它们的本地上下文；因此，新闻片段中放置较远的几个相关片段，在图上变得接近，然后使用高阶消息传播进一步探索。

12、进一步地，所述多视图特征通过以下方法提取：

13、对于每个新闻，基于构建的图，利用图神经网络作为编码器来提取长距离语义关系；具体来说，使用图门控神经网络来传播上下文信息，以自适应平衡节点特征和相邻信息；这个过程表示为：

14、

15、zi＝σ(wzai+uzhi+bz),

16、ri＝σ(wrai+urhi+br),

17、

18、

19、式中为经拉普拉斯运算归一化的邻接矩阵，c表示边缘集，w*，u*和b*是可训练参数，控制邻域信息和节点特征的比例，σ是非线性激活函数，在获得节点表示后，利用平均池生成新闻的语义表示rsem：

20、

21、从新闻中提取风格特征，表示为s＝{s1,...,s8}，包括八个高级特性；基于文体特征，使用多层感知器(mlp)生成写作风格表示rsty，公式为：

22、rsty＝mlp({s1,...,s8})；

23、从内容文本中提取发布者情感，包括:情感类别、情感词汇、情感强度、情感得分和辅助特征；将上述所有特征连接起来，得到epub；另一方面，从新闻文章的评论中提取社会情感特征，表示为esoc＝{e1,...,e|e|}；因此，将这些特征串联起来得到双重情感特征：

24、

25、其中表示向量的拼接，egap表示发布者情感与社会情感的相减；然后将双情感特征转发给另一个mlp，得到表征：

26、remo＝mlp(edual)。

27、进一步地，对证据图增强，以提供解释性并提高效果，具体包括：

28、提取what、why和how的动词和表达式三种类型的单词：

29、w3ord＝f(ner(pi))

30、其中f(·)表示过滤函数，排除不属于who、when和where的词；ner代表开源的命名实体识别工具；

31、建立积累和保留历史新闻数据的证据图，这也促进了离散新闻片段之间的联系；具体来说，用真实的历史新闻构建了一个正例证据图g+，用假的历史新闻构建了一个负例证据图g-；

32、使用正例证据图来细化负例证据图，以排除出现在正例证据图中的事实，然后将这些图组合成负例证据图。

33、进一步地，构建正例证据图的步骤如下：

34、对于每一篇标记为的真实新闻文章，首先提取其对应的图gi；

35、将这些图合并，形成正例证据图：

36、g+＝fmerg(g1,...,gi,...gn)

37、其中，(g1,.本文档来自技高网...

【技术保护点】

1.基于图证据的可解释性虚假新闻检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，每条新闻都包含内容和一组相关评论；为每个新闻分配一个ground-truth标签y∈{0,1}，其中1或0分别表示新闻是假的或真实的；给定一组训练数据，任务旨在预测测试集中新闻的真实性。

3.根据权利要求2所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，通过图构造进行预处理，具体包括：

4.根据权利要求3所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，所述多视图特征通过以下方法提取：

5.根据权利要求4所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，对证据图增强，以提供解释性并提高效果，具体包括：

6.根据权利要求5所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，构建正例证据图的步骤如下：

7.根据权利要求5所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，构建正例证据图的步骤如下：

8.根据权利要求7所述的基于图证据

9.根据权利要求8所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，对新闻进行证据增强预测，包括：

10.根据权利要求9所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，使用二元交叉熵损失作为目标函数，设计损失函数使BCE值最小：

...

【技术特征摘要】

1.基于图证据的可解释性虚假新闻检测方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，通过图构造进行预处理，具体包括：

4.根据权利要求3所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，所述多视图特征通过以下方法提取：

5.根据权利要求4所述的基于图证据的可解释性虚假新闻检测方法，其特征在于，对证...

【专利技术属性】
技术研发人员：赵翔，郭浩，曾维新，唐九阳，段钰潇，唐欣，吴继冰，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人