一种基于事实知识融合的多模态虚假新闻检测方法技术

技术编号：42684133 阅读：24 留言：0更新日期：2024-09-10 12:33

本发明专利技术公开了一种基于事实知识融合的多模态虚假新闻检测方法，包括获取新闻数据，抽取出新闻的文本和图片，并进行真实性标注，构建数据集；基于文本，抽取知识图谱中的相关事实性信息作为外部知识；对文本、图片以及外部知识进行编码；对文本和实体组成的图结构中的边分配注意力权重，并根据图结构进行特征聚合；对特征聚合后的图特征进行关键节点筛选；对文本特征和知识特征进行融合；对文本特征和图片特征进行跨模态融合；通过融合知识的文本向量进行分类，然后通过图文融合特征进行分类，完成模型训练，最后通过训练好的模型进行虚假新闻检测。本发明专利技术使文本、图片和外部知识充分进行交互，提高了虚假新闻的辨识准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚假新闻检测，特别涉及一种基于事实知识融合的多模态虚假新闻检测方法。

技术介绍

1、随着社交媒体的快速发展，其已经成为人们日常生活中获取信息的主要平台，但信息的快速传播也使其成为了虚假新闻的理想平台。随着图片等模态的数据在社交媒体中的涌现，也出现了越来越多的图文并茂的多模态虚假新闻，由于其对事实进行歪曲和捏造，会对社会以及个人带来不可磨灭的负面影响。因此，对社交媒体上的多模态虚假新闻进行检测是十分必要的。

2、对于多模态虚假新闻的检测，早期通常使用根据手动设计的特征提取方法来学习新闻中的一些特征，但这样的方法依赖于专家的先验知识，检测效果也较差，然而随着深度学习的出现，各种方法都极大地提升了检测的效果。

3、目前，主流的检测方法都聚焦于协调文本特征表示和图片特征表示，结合文本语义特征、图片篡改特征以及文本特征和图片特征的相似性来进行虚假新闻检测，然而，这些方法虽然能够有效的利用新闻本身的特征，但忽略了人们判断新闻真假时通常用到的外部知识，外部知识中包含了大量的信息能够帮助人们识别出常见的且通过新闻本身很难被理解的事实性错误。

技术实现思路

1、为解决上述问题，本专利技术提供了一种基于事实知识融合的多模态虚假新闻检测方法，以图神经网络为框架，使文本信息、图片信息和外部知识信息充分的进行交互，从中提取出支撑虚假新闻辨识的外部知识信息，对多模态新闻的真实性进行分类，提高了虚假新闻的辨识准确度。

2、本专利技术提供了一种基于事实知识融合的多

3、s1：获取新闻数据，抽取出新闻的文本和图片，并进行真实性标注，构建数据集；

4、s2：基于所述文本，抽取知识图谱中的相关事实性信息作为外部知识；

5、s3：对所述文本、图片以及外部知识进行编码；

6、s4：建立知识交互的图结构，根据图注意力机制，对文本和实体组成的图结构中的边分配注意力权重，并根据图结构进行特征聚合；

7、s5：对特征聚合后的图特征进行关键节点筛选，筛选出关键知识特征；

8、s6：对关键节点分配注意力权重，根据知识感知注意力机制，对文本特征和知识特征进行融合；

9、s7：根据跨模态注意力机制，对文本特征和图片特征进行跨模态融合；

10、s8：通过融合知识的文本向量进行分类，然后通过图文融合特征进行分类，完成模型训练，最后通过训练好的模型进行虚假新闻检测。

11、进一步的，步骤s2中，所述外部知识的获取，具体过程如下：

12、将所述文本进行分句、分词，并进行命名实体识别，得到文本中的实体；

13、从知识图谱中查找是否存在该实体，将在知识图谱中存在的实体抽取出构成对应新闻数据的实体序列；

14、基于每个实体在知识图谱中对应的属性以及实体和属性的关系，得到对应新闻数据的属性序列和关系序列。

15、进一步的，步骤s3中，对所述文本进行编码，具体如下：

16、获取固定长度的单词序列输入到bert模型中，得到编码后的文本；基于单词注意力机制对每个单词的重要性进行衡量，以获得文本的向量表示；对每个单词向量的分数进行加权平均，获得整个文本的向量表示。

17、进一步的，步骤s3中，通过掩码自动编码器对图片进行编码；

18、通过bert模型对实体、关系以及属性进行语义编码。

19、进一步的，步骤s4中，分配权重进行特征融合的具体过程如下：

20、构造新闻实体图，并将实体图与文本数据连接起来，作为知识交互的图结构；

21、根据实体间的邻接关系、实体属性的特征以及关系的特征，计算图注意力权重；

22、根据注意力分数以及邻接矩阵，进行节点特征加权求和。

23、进一步的，步骤s5中，关键知识特征筛选的具体过程如下：

24、根据注意力机制计算节点特征重要性，通过排序池化层选择最关键的节点，将图注意力网络的最后一层输出进行排序，选取k个关键节点作为最终的知识表示。

25、进一步的，步骤s6中，注意力权重分配，表示如下：

26、q＝wqattsw

27、k＝wkattkgw

28、v＝wvattkgw

29、

30、其中，q表示知识特征，wq、wk和wv表示参数矩阵，αk表示知识特征的注意力权重分配，q表示查询向量，k表示键向量，v表示值向量，attsw表示经过单词注意力后的文本向量表示，dk表示向量维度。

31、进一步的，步骤s7中，使用原始的文本特征和图片特征，基于跨模态注意力机制进行融合，表示如下：

32、αc＝σ((sw||iw)w)wc

33、

34、其中，αc表示跨模态的注意力权重，和表示可学习的参数，attcw表示跨模态融合后的特征。

35、进一步的，通过融合知识的文本向量进行分类，训练模型，具体表示如下：

36、ysg＝softmax(wsgattsg+bsg)

37、lsg＝ylog(ysg)+(1-y)log(1-ysg)

38、其中，ysg表示通过知识融合的文本特征向量的分类结果，y表示真实标签，attsg为新闻文本特征和知识图特征拼接后的融合向量，wsg表示可学习的参数矩阵，bsg表示可学习的参数向量。

39、进一步的，通过文本特征、知识图特征、跨模态特征的融合向量进行分类，训练模型，具体表示如下：

40、yfinal＝softmax(wfinal(attsg||attc)+bfinal)

41、lfinal＝ylog(yfinal)+(1-y)log(1-yfinal)

42、其中，yfinal表示多视角特征融合后的分类结果。

43、本专利技术的有益效果如下：

44、本专利技术通过知识图谱中的实体、关系以及属性作为外部知识，并利用图注意力机制和排序池化，筛选出对于虚假新闻检测有作用的关键外部知识，同时利用新闻与关键知识特征的注意力机制，确定外部知识的重要程度，并融入文本特征中，再通过文本图片注意力机制获取视觉特征，通过联合训练模型，保证了模型训练的稳定性，提高了多模态虚假新闻检测的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于事实知识融合的多模态虚假新闻检测方法，其特征在于，包括：

2.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S2中，所述外部知识的获取，具体过程如下：

3.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S3中，对所述文本进行编码，具体如下：

4.根据权利要求3所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S3中，通过掩码自动编码器对所述图片进行编码；

5.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S4中，分配权重进行特征融合的具体过程如下：

6.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S5中，关键知识特征筛选的具体过程如下：

7.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S6中，注意力权重分配，表示如下：

8.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤S7中，使

9.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，通过融合知识的文本向量进行分类，训练模型，具体表示如下：

10.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，通过文本特征、知识图特征、跨模态特征的融合向量进行分类，训练模型，具体表示如下：

...

【技术特征摘要】

1.一种基于事实知识融合的多模态虚假新闻检测方法，其特征在于，包括：

2.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤s2中，所述外部知识的获取，具体过程如下：

3.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤s3中，对所述文本进行编码，具体如下：

4.根据权利要求3所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤s3中，通过掩码自动编码器对所述图片进行编码；

5.根据权利要求1所述的基于事实知识融合的多模态虚假新闻检测方法，其特征在于，步骤s4中，分配权重进行特征融合的具体过程如下：

6.根据权利要求1所述的基于事实知识融合的多模态虚假新闻...

【专利技术属性】
技术研发人员：刘鑫，王胜泽，冯收，吴超蓉，张海瀛，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人