一种基于多层次语义增强的多模态假新闻检测方法技术

技术编号：39987768 阅读：4 留言：0更新日期：2024-01-09 02:01

本发明专利技术公开了一种基于多层次语义增强的多模态假新闻检测方法，包括：1、利用新闻文本实体作为提示主体词汇，并应用强化学习发现最佳提示格式，以生成多层次图像描述；2、将新闻图像，多层次图像描述和新闻文本输入多模态融合模块从而得到新闻的多模态融合特征；3、将新闻中蕴含的实体链接至知识图谱中，并输入知识语义增强模块，以自动选择强相关的新闻实体，并去除无关的噪声实体，从而获取精确的新闻知识语义特征；4、根据新闻的多模态融合特征和知识语义特征计算假新闻检测结果，并计算分类损失从而对整个网络进行更新。本发明专利技术能去除新闻实体中蕴含的噪声，并获取精确的新闻知识语义信息，从而能更精准的检测多模态假新闻。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态假新闻检测领域，具体的说是一种基于多层次语义增强的多模态假新闻检测方法。

技术介绍

1、随着社交媒体平台越来越深入人们的生活，它们已成为公众获取信息的主要来源。遗憾的是，与之相伴的是假新闻内容的爆发性增长。由于假新闻内容的迷惑性，人们常常被其误导，进而影响自己的判断和决策。此外，假新闻还可能被用来歪曲和捏造事实，引导舆论，对社会信任和稳定产生不利影响。因此，为了阻止假新闻的激增，迫切需要自动检测方法来识别假新闻，提高社交媒体生态系统的可信度。假新闻检测是一个二元分类问题，其目标是分析新闻内容以确定其真实性。传统的假新闻检测侧重于文本内容，依靠从文本、社交媒体传播过程和用户互动中提取语义特征来检测假新闻。然而，随着多媒体技术的不断发展，造谣者越来越多地使用多模态内容(如有吸引力的图片)来吸引公众的注意力，以促进更快的传播。因此，多模态假新闻检测领域正受到越来越多的关注。

2、多模态假新闻检测领域已经取得了一些进展，但现有方法对新闻图像信息的利用还不够充分。一些方法简单的通过预先训练的vgg-19或resnet-50网络提取图像特征，或结合频域信息作为图像特征的补充。然而，这些方法都没有充分挖掘图像的语义信息，尤其是没有结合文本信息对图像特定内容进行语义提取。此外，简单的提取图像特征无法有效缩小图像和文本特征之间的模态差距，不利于后续的多模态融合。除了新闻内容的基本特征外，新闻实体的知识层面特征对于预测样本的真实性也至关重要。知识图谱由作为图节点的实体和作为边的不同类型的关系组成，其中蕴含着丰富的背景

技术实现思路

1、本专利技术是为了解决上述现有技术存在的不足之处，提出一种基于多层次语义增强的多模态假新闻检测方法，以期能解决传统多模态假新闻检测方法未能充分挖掘图像潜在的语义信息的难题，并去除新闻实体中蕴含的噪声，获取精确的新闻知识语义信息，从而能更精准的检测多模态假新闻。

2、本专利技术为达到上述专利技术目的，采用如下技术方案：

3、本专利技术一种基于多层次语义增强的多模态假新闻检测方法的特点在于，是按如下步骤进行：

4、步骤一、多模态新闻数据的收集和预处理；

5、提取社交媒体平台上每条多模态新闻的文本内容及其对应的一张图像，得到新闻文本集和新闻图像集其中，ti表示第i条新闻文本；ii表示ti对应的第i张新闻图像；

6、设置第i张新闻图像ii及其第i条新闻文本ti的真实性标签，记为yi，且yi∈{0，1}；从而构建训练数据集其中，n表示训练数据集中的新闻数量；

7、步骤二、构建多模态假新闻检测网络，包括：图像语义增强模块、多模态融合模块、知识语义增强模块；

8、步骤三、构建图像语义增强模块，包括：rlprompt单元、提示语句构建单元、blip模型；

9、步骤3.1、rlprompt单元生成n个待学习提示词{z}1{z}2...{z}k...{z}n；

10、步骤3.2、提示语句构建单元的处理：

11、步骤3.2.1、利用实体链接工具tagme对第i条新闻文本ti进行实体识别，得到文本实体集其中，表示第i条新闻文本ti中的第j个文本实体，m表示每条新闻文本中的文本实体数量；

12、步骤3.2.2、构建基于第i条新闻文本ti中两个文本实体作为提示主体词汇的交互提示语句表示第i条新闻文本ti中的第j’个实体；and表示连接符；

13、构建基于第i条新闻文本ti中单个文本实体作为提示主体词汇的局部提示语句

14、步骤3.3、blip模型生成第i条多模态新闻的图像描述集

15、将第i张新闻图像ii送入blip模型中，得到全局图像描述

16、将第i张新闻图像ii和交互提示语句pcon，i送入blip模型中，引导生成新闻的交互图像描述

17、将第i张新闻图像ii和局部提示语句ploc，i送入blip模型中，引导生成新闻的局部图像描述

18、步骤四、构建多模态融合模块，包括：特征提取单元、跨模态特征增强单元；

19、步骤4.1、特征提取单元用于提取多模态新闻的不同模态初始特征；

20、步骤4.2、跨模态特征增强单元用于对不同模态初始特征进行处理，并输出跨模态特征fn，i；

21、步骤五、构建知识语义增强模块，包括实体链接单元、自适应硬注意力机制单元、跨模态知识交互单元、知识融合单元；

22、步骤5.1、实体链接单元用于提取新闻实体并链接至知识图谱；

23、步骤5.2、自适应硬注意力机制单元用于对实体嵌入特征进行处理，得到过滤后的实体特征；

24、步骤5.3、跨模态知识交互单元用于对实体嵌入特征进行特征增强，得到实体知识交互特征；

25、步骤5.4、知识融合单元将过滤后的视觉实体特征fve，i、过滤后的文本实体特征fte，i、文本实体知识交互特征和图像实体知识交互特征串联后作为一组实体嵌入，之后应用自注意机制对所述实体嵌入进行进一步建模，并使用全连接层和平均池化层对建模后的实体嵌入进行处理，最终输出新闻背景知识特征fe，i；

26、步骤六、多模态假新闻检测网络的优化：

27、步骤6.1、利用式(8)预测第i条多模态新闻为假新闻的概率

28、

29、式(8)中，σ代表sigmoid激活函数，wc表示分类器的权重矩阵，bc表示偏差向量；f′m，i表示维度改变后的全局多模态新闻特征；

30、步骤6.2、利用式(9)构建交叉熵损失函数

31、

32、步骤6.3、基于所述训练数据集x，使用adam优化策略对所述多模态假新闻检测网络进行训练，直至网络总损失函数收敛为止，从而得到最优多模态假新闻检测模型，用于对任一多模态新闻进行预测。

33、本专利技术所述的基于多层次语义增强的多模态假新闻检测方法的特点也在于，所述步骤3.1包括：

34、步骤3.1.1、rlprompt单元利用distilgpt-2语言模型从词汇表中学习待学习提示词{z}1{z}2...{z}k...{z}n；其中，{z}k表示第k个待学习的提示词；本文档来自技高网...

【技术保护点】

1.一种基于多层次语义增强的多模态假新闻检测方法，其特征在于，是按如下步骤进行：

2.根据权利要求1所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤3.1包括：

3.根据权利要求2所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤4.1包括：

4.根据权利要求3所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤4.2包括：

5.根据权利要求4所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤5.1包括：

6.根据权利要求5所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤5.2包括：

7.根据权利要求6所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤5.3包括：

8.根据权利要求2所述的基于多层次语义增强的多模态假新闻检测方法，其特征在于，所述步骤3.1.2中的两层MLP层是按如下步骤进行优化，以得到最佳提示词；

9.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-8中任一所述多模态假新闻检测方法的步骤。

...

【技术特征摘要】