一种基于知识图谱检索的虚假新闻检测方法及系统技术方案

技术编号：40879896 阅读：3 留言：0更新日期：2024-04-08 16:50

本发明专利技术公开了一种基于知识图谱检索的虚假新闻检测方法及系统，方法包括：将事实验证数据中的原始声明分为若干子声明，然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测；可以有效过滤噪声信息，提高了事实验证的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于虚假新闻检测领域，具体涉及基于知识图谱检索的虚假新闻检测方法及系统。

技术介绍

1、自动假新闻检测是人工智能领域的一个重要主题，其中自动化事实验证是当中重要挑战之一。其任务是通过根据从可靠来源检索到的证据检查声明是否在事实上是正确的。通过自动事实验证，能够在一定程度上减轻事实核查人员的负担。现在已经有通过非结构化文本来辅助事实核查工作，基于此能够更好地揭示短语之间的细粒度关系，从而提高事实验证的准确性。

2、然而，现有工作通常直接将声明或其所有的语义元素视为节点来进行检索增强，此类检索方式缺乏噪声过滤机制。声明中本身所刻意构造的误导信息将会严重危害检索增强的有效性，并且会引入更多的误导信息。现有模型通常依据原始声明直接进行问题生成来预测声明的正确性，但由于存在声明本身过于简短的问题，以及内涵错误信息的原因，往往无法生成一个清晰合理的问题来预测声明的正确性。

技术实现思路

1、本专利技术提供了一种基于知识图谱检索的虚假新闻检测方法及系统，可以有效过滤噪声信息，并通过有针对性的知识检索增强来进行二次问题生成，提高了事实验证的准确性。

2、为达到上述目的，本专利技术所采用的技术方案是：

3、本专利技术第一方面提供了一种基于知识图谱检索的虚假新闻检测方法，包括：

4、获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；

5、根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一

6、将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，将事实验证数据中的原始声明分为若干子声明；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；

7、对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测。

8、进一步地，对事实验证数据进行语义角色标注获得对应的语义信息的过程包括：

9、识别事实验证数据中的动词，标记动词与相关单词或短语的关系映射并分配角色获得对应的语义信息。

10、进一步地，根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题，包括：

11、将事实验证数据中的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征n；

12、将中间特征n和带掩码的原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第一问题。

13、进一步地，将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，包括：

14、将相同第一问题对应的第一证据答案与声明答案拼接而成的答案对，然后把答案对转化为答案特征，

15、将第一证据答案与声明答案输入至transformer模型的注意力机制获得注意力权重，表达公式为：

16、；

17、；

18、公式中，表示为注意力权重，表示为第一证据答案，表示为声明答案；、和表示为可学习的参数；表示为激活函数；

19、根据注意力权重对答案特征进行加权求和获得预测特征f，表示公式为：

20、；

21、公式中，表示为由答案对转化的答案特征；

22、将预测特征f输入至全连接层获得标签预测概率。

23、进一步地，根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，包括：

24、所述标签预测概率分为支持标签概率与否定标签概率；若支持标签概率与否定标签概率差值小于0.005，则将子声明的标签预测标记为不可信预测答案；否则，将子声明的标签预测标记为可信预测答案。

25、进一步地，对可信预测答案进行知识增强提取子图，包括：

26、将声明答案到第一证据答案分别作为节点，构建相同问题对应的声明答案到第一证据答案的连接边，对可信预测答案进行知识图谱检索来进行子图提取；

27、通过注意力机制学习节点v与相邻节点之间的权重，表示公式为：

28、；

29、；

30、基于权重计算获得节点v学习到的内部结构，表达公式为：

31、；

32、公式中，、、和表示为学习参数；表示为节点的节点特征；表示为节点v的节点特征；表示为节点v与相邻节点j之间的相关性得分；为激活函数；表示为节点v学习到的内部结构；为节点v的邻居节点个数。

33、进一步地，通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题，包括：

34、通过门控过滤模块对声明答案到第一证据答案对应节点上的信息进行筛选获得门控特征，表达公式为:

35、；

36、；

37、其中，、和代表可训练参数，，分别代表来自同一问题的证据答案节点和声明答案节点，为所对应的门控过滤向量，表示hadamard积；

38、将门控特征和所述不可信预测答案所对应的原始声明以及声明答案输入至问题生成模型的第一多头自注意机制和第一前馈神经网络层获得中间特征；

39、将中间特征和所述不可信预测答案所对应的带掩码原始声明输入至问题生成模型的第二多头自注意机制和第二前馈神经网络层生成第二问题。

40、本专利技术第二方面提供了一种基于知识图谱检索的虚假新闻检测系统，包括：

41、获取模块，用于获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；

42、筛选模块，获取事实验证数据并对事实验证数据进行语义角色标注获得对应的语义信息作为声明答案；根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题；根据第一问题由证据数据库中检索获得第一证据信息，将第一证据信息作为上下文信息得到第一证据答案；将事实验证数据中的原始声明分为若干子声明，然后将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率；根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，对可信预测答案进行保留；

43、判定模块，用于对可信预测答案进行知识增强提取子图，根据子图来训练问题生成模型；通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题；对第二问题进行预测获得第二证据答案；根据可信预测答案和第二证据答案进行虚假新闻检测。

44、本专利技术第三方面提供了电子设备包括存储介质和处理器；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行本专利技术第一方面所述的方法。

45、与现有技术相比，本专利技术的本文档来自技高网...

【技术保护点】

1.一种基于知识图谱检索的虚假新闻检测方法，其特征在于，包括：

2.根据权利要求1所述的虚假新闻检测方法，其特征在于，对事实验证数据进行语义角色标注获得对应的语义信息的过程包括：

3.根据权利要求1所述的虚假新闻检测方法，其特征在于，根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题，包括：

4.根据权利要求1所述的虚假新闻检测方法，其特征在于，将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，包括：

5.根据权利要求1所述的虚假新闻检测方法，其特征在于，根据标签预测概率对子声明进行分类获得可信预测答案和不可信预测答案，包括：

6.根据权利要求1所述的虚假新闻检测方法，其特征在于，对可信预测答案进行知识增强提取子图，包括：

7.根据权利要求1所述的虚假新闻检测方法，其特征在于，通过训练后的问题生成模型为所述不可信预测答案所对应的问题生成第二问题，包括：

8.一种基于知识图谱检索的虚假新闻检测系统，其特征在于，包括：

9.电子设备包括存储介质和处

...

【技术特征摘要】

1.一种基于知识图谱检索的虚假新闻检测方法，其特征在于，包括：

2.根据权利要求1所述的虚假新闻检测方法，其特征在于，对事实验证数据进行语义角色标注获得对应的语义信息的过程包括：

3.根据权利要求1所述的虚假新闻检测方法，其特征在于，根据语义信息通过以大型双向自回归变压器为基础的问题生成模型生成第一问题，包括：

4.根据权利要求1所述的虚假新闻检测方法，其特征在于，将第一证据答案与声明答案通过注意力机制进行相似度分析以获得标签预测概率，包括：

5.根据权利要求1所述的虚假新闻检测方法，其特征在于，根据标签预...

【专利技术属性】
技术研发人员：马廷淮，边叶鑫，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人