一种低资源多领域的假新闻检测方法及系统技术方案

技术编号：40802860 阅读：2 留言：0更新日期：2024-03-28 19:27

本发明专利技术公开了一种低资源多领域的假新闻检测方法及系统，涉及虚假新闻检测技术领域，该方法包括：构建带有可学习标记的提示模板；基于注意力机制得到领域增强的提示模板；利用领域增强的提示模板包装原始新闻文本，得到提示文本；通过预训练语言模型预测生成提示文本中掩码标记处待预测的标签词，经过掩码语言模型的头部预测输出，得到标签单词集中每个标签词的概率，基于上下文先验和可学习权重构建表达器，将标签单词集中标签词映射到对应的真假分类标签，将标签词的概率转换为相对应的真假分类标签的概率，以二元交叉熵损失函数为训练目标函数来检测假新闻。本发明专利技术有效利用领域信息增强的提示模板，能适应多领域、低资源场景的假新闻检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚假新闻检测，特别是涉及一种低资源多领域的假新闻检测方法及系统。

技术介绍

1、现代技术中，社交媒体平台已成为人们接收新闻的主要渠道之一。其中，虚假新闻包含虚构的故事、虚假的事实陈述、断章取义或误导性的标题，在这种情况下，人们无疑会被误导，因此，自动检测虚假新闻既是必要的，也是具有挑战性的。

2、现有的假新闻检测方法大致有以下几类，基于新闻内容的方法主要是通过提取新闻内容的特征来进行检测，而真实新闻和虚假新闻在写作风格、词汇和句法上存在差异。为了提高模型的性能和可靠性，整合更多信息是非常有必要的，例如，假新闻的内容往往具有煽动性，zhang等人在文献“zhang x,cao j,li x,et al.mining dual emotion for fakenews detection[c]//proceedings of the web conference 2021,2021:3465-3476”中，利用情感信息来提高模型的性能。结合外部知识也是一种有效的手段，wang等人在文献“wangy,qian s,hu j,et al.fake news detection via knowledge-driven multimodalgraph convolutional networks[c]//proceedings of the 2020internationalconference on multimedia retrieval,2020:540-547”中，将外部知识整合到新闻内容中，增强了模型对

3、现实世界的新闻涉及各个领域，不同领域的新闻在写作风格、词汇使用和传播方式等方面存在差异。不同领域数据分布的差异被称为领域偏移，比如文献“pan s j,yangq.a survey on transfer learning[j].ieee transactions on knowledge and dataengineering,2009,22(10):1345-1359”。多领域假新闻检测也逐渐受到学者们的关注，通过对多个领域建模，提高模型的整体性能及领域泛化能力。由于域标签对于多域学习非常有用(可参考“zhuang f,qi z,duan k,et al.a comprehensive survey on transferlearning[j].proceedings ofthe ieee,2020,109(1):43-76”)，构建准确的多域标签数据集对于假新闻检测来说也非常重要，kleinberg等人在文献中“pérez-rosas v,kleinbergb,lefevrea,et al.automatic detection offake news[j].arxivpreprint arxiv:1708.07104,2017”构建了两个多领域假新闻检测数据集，涵盖了7个不同的新闻领域。cao等人在文献“nan q,cao j,zhu y,et al.mdfend:multi-domain fake news detection[c]//proceedings of the 30th acm international conference on information&knowledge management,2021:3343-3347”中构建了一个涵盖了9个领域的中文假新闻检测数据集，并设计了一个多域假新闻检测模型。zhu等人在文献中“y.zhu,q.sheng,j.cao,q.nan,k.shu,m.wu,j.wang,and f.zhuang,“memory-guided multi-view multi-domainfake news detection,”ieee transactions on knowledge and data engineering,2022”通过多视角建模获取交互信息，并利用领域记忆库在多领域假新闻检测中有效地强化了特定领域的特征。

4、但是，上述现有技术多数都聚焦于单一的特定领域，在其他领域上的模型性能往往表现不佳。多领域假新闻检测技术虽然注重从多个角度出发，结合不同领域之间的相关性，在多个领域上的模型性能表现良好，但是，这些技术都需要足够的数据样本来训练模型，在资源匮乏的情况下，模型性能表现较差。以往基于外部知识提示学习的技术在特定领域下的低资源场景有着不错的表现，但是在其他领域模型性能依然表现较差，且其在提示学习表达器模块的设计过于局限。尽本文档来自技高网...

【技术保护点】

1.一种低资源多领域的假新闻检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的低资源多领域的假新闻检测方法，其特征在于，所述S2，将领域标签提供的领域信息整合到带有可学习标记的提示模板中，得到领域增强的提示模板，具体包括：

3.根据权利要求2所述的低资源多领域的假新闻检测方法，其特征在于，所述可学习嵌入向量hα的表达式为:

4.根据权利要求1所述的低资源多领域的假新闻检测方法，其特征在于，所述S3中，基于上下文先验和可学习权重，构建表达器，具体包括：

5.根据权利要求4所述的低资源多领域的假新闻检测方法，其特征在于，所述S5，将标签词的概率转换得到相对应的真假分类标签的概率，具体包括：

6.根据权利要求1所述的低资源多领域的假新闻检测方法，其特征在于，所述二元交叉熵损失函数为：

7.一种低资源多领域的假新闻检测系统，应用于权利要求1-6所述的低资源多领域的假新闻检测方法，其特征在于，包括：

8.根据权利要求7所述的低资源多领域的假新闻检测系统，其特征在于，所述将领域标签提供的领

...

【技术特征摘要】

1.一种低资源多领域的假新闻检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的低资源多领域的假新闻检测方法，其特征在于，所述s2，将领域标签提供的领域信息整合到带有可学习标记的提示模板中，得到领域增强的提示模板，具体包括：

3.根据权利要求2所述的低资源多领域的假新闻检测方法，其特征在于，所述可学习嵌入向量hα的表达式为:

4.根据权利要求1所述的低资源多领域的假新闻检测方法，其特征在于，所述s3中，基于上下文先验和可学习权重，构建表达器，具体包括：

5.根据权...

【专利技术属性】
技术研发人员：周咏梅，范长永，周栋，林楠铠，阳爱民，
申请(专利权)人：广东外语外贸大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人