System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于提示学习的虚假信息检测方法及系统技术方案_技高网

基于提示学习的虚假信息检测方法及系统技术方案

技术编号:40595494 阅读:6 留言:0更新日期:2024-03-12 21:57
本发明专利技术提供了一种基于提示学习的虚假信息检测方法及系统,其中方法包括以下步骤:S1:针对虚假信息检测任务构造预设模板,所述预设模板包括待预测变量;S2:将所述预设模板与输入变量拼接,形成提示学习模板;S3:将待检测信息代入所述输入变量后,所述提示学习模板形成输入语句,将所述输入语句输入预设的预训练语言模型进行训练,并预测所述待预测变量的预测值;S4:将所述预测值映射到相应的标签,并根据所述预测值判断所述待检测信息为真实还是虚假。本发明专利技术基于少量样本数据即可获得较好的模型效果,并且能够减少模型微调参数量,提升模型的虚假信息检测效率,领域迁移能力强。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,更为具体地,涉及一种基于提示学习的虚假信息检测方法及系统


技术介绍

1、虚假信息是指制造者故意误导读者,并能够通过一些其它来源证实其结果为假的信息,通常具有故意性(intent)和可证实性(verifiability)。虚假信息检测已经成为政府、媒体和研究机构等重点关注的问题。

2、众多国内外大学和研究机构都对此进行深入研究,大多数现有的研究分别基于研究内容和传播过程中产生的社交上下文来进行虚假信息检测。

3、(1)基于内容虚假信息检测

4、基于内容的检测方法主要基于虚假新闻特定的语言风格建模,包括早期提取语言学特征、主题特征等特征工程的方法。近年来,得益于深度模型表征深层语义特征的能力,越来越多研究学者将深度学习技术应用到虚假新闻检测中。ma等将新闻的每个句子输入到循环神经网络(recurrent neural network ,rnn),利用rnn的隐层向量表示新闻信息,将隐藏层信息输入到分类器中进行分类。文献首次利用卷积神经网络(convolutionalneural network, cnn)建模新闻文章提取文本特征。有研究将对抗训练的思想应用到虚假新闻检测中,有效提升了模型的鲁棒性和分类准确率,对抗训练生成器和判别器,基于生成器将谣言转化为非谣言,将非谣言转化为谣言,并将生成器生成的新闻和原始新闻输入到判别器中进行虚假新闻检测。文献通过将新闻文章建模为以句子为节点,句子间相似度为边的图,将虚假新闻检测问题转化为图分类问题。

5、在社交媒体的富媒体化趋势下,虚假新闻逐渐由单一的文本形式向多模态形式转变。虚假信息的发布者利用一些极具误导性甚至经过篡改的图片来吸引读者的注意,进一步促进虚假新闻的传播。这类基于多模态内容的假新闻比纯文本的假新闻具有更强的传播力,也更具有检测挑战性。因此,多模态虚假新闻检测成为近年来的研究热点。

6、在虚假信息检测中文本模态和视觉模态相互补充。现有基于视觉模态的研究主要利用图片的取证特征、语义特征、分布特征和上下文特征等进行虚假信息检测。有研究学者首次利用深度神经网络将多模态信息引入到虚假信息检测,提出一种基于注意力机制的循环神经网络,将文本、视觉及上下文的信息进行融合,提高了模型在新的虚假新闻事件上的检测效果;有研究利用对抗学习的方法,引入事件检测这一辅助任务,通过辅助任务引导模型更好地理解多模态特征,帮助虚假信息检测。然而,上述方法缺乏一定的事实知识,很难理解多模态信息中蕴含的事件的深层语义。针对此问题,有研究从外部知识库中提取文本实体的概念知识融入到多模态的表示中,以获取更深层的语义信息;还有研究通过引入外部知识图谱的方式增强对新闻文本语义的理解,通过利用图神经网络建模文本、知识和图片中的物体之间的交互。

7、(2)基于社交网络虚假信息检测

8、基于社交上下文的方法主要包括基于用户行为可信度的方法以及基于传播网络的方法。有研究将新闻的传播网络和用户的社交网络建模为一张异质图,通过异质图神经网络建模图中的节点信息,最后,将新闻信息和用户信息进行拼接以检测虚假新闻;有研究利用用户的发文历史识别用户可信度,将其作为内因,进一步将新闻的传播情况作为外因,利用内因和外因共同进行虚假新闻检测;有研究将谣言的传播过程建模为树形结构,分别构建了一棵自底向上的传播树和一棵自顶向下的传播树,利用递归神经网络对树中的节点建模,对虚假新闻进行分类。有研究将新闻的传播图建模为一张动态图,考虑到新闻传播过程的动态变化,利用动态图神经网络得到动态图嵌入表示进行虚假新闻检测;有研究首次将图对比学习的思想引入到虚假新闻检测中,通过提取子图的方式对传播图进行数据增强,将原始传播图作为锚点,将数据增强的图作为正例,将其他图作为负例,利用对比学习学习传播图的高阶不变特征建模新闻的传播过程。有研究学者通过构建异质信息网络对虚假信息进行建模,异构信息网络包含更加丰富的语义信息。

9、由于虚假信息领域的标注数据较少,现实场景通常没有大量高质量标注的数据,部分研究学者通过引入外部知识库获取背景知识以及大量客观事实来帮助更好的理解新闻内容。有研究通过在标注充足的英文语料上训练模型,然后将其迁移到无标注的中文语料库中,可以帮助模型在小样本下取得不错的效果。然而,上述方法在迁移到新任务上时,需要大量高质量标注数据来训练模型,训练参数大且费时。

10、现有的虚假信息识别
迁移能力差,面向不同领域虚假信息识别任务,需要重新标注领域数据。然而,人工标注数据耗费巨大,且一般模型受标注数据影响较大,需要重新训练模型,难以通过训练一个通用模型以泛化到新数据集上,亟需泛化和扩展能力强的识别算法。


技术实现思路

1、鉴于上述问题,本专利技术的目的是提供一种基于提示学习的虚假信息检测方法及系统,采取提示-微调方法,通过在提示学习模板中插入一段和任务相关的可微调的提示符,基于少量样本数据获得较好的模型效果,并且能够减少模型微调参数量,还采用了多种提示学习模板以及多种标签映射的设计,增强了模型在特定领域的泛化能力,增强了虚假信息检测的能力。

2、本专利技术提供的一种基于提示学习的虚假信息检测方法,包括以下步骤:

3、s1:针对虚假信息检测任务构造预设模板,所述预设模板包括待预测变量;

4、s2:将所述预设模板与输入变量拼接,形成提示学习模板;

5、s3:将待检测信息代入所述输入变量后,所述提示学习模板形成输入语句,将所述输入语句输入预设的预训练语言模型进行训练,并预测所述待预测变量的预测值;

6、s4:将所述预测值映射到相应的标签,并根据所述预测值判断所述待检测信息为真实还是虚假。

7、所述步骤s1中,所述预设模板为“这是一条[mask]信息”或“大众对这条信息[mask]”,其中[mask]为所述待预测变量。

8、所述步骤s2中,所述输入变量分别与不同的预设模板拼接,形成不同的提示学习模板。

9、所述步骤s3中,所述预设的预训练语言模型为mlm模型,所述待检测信息代入所述输入变量后,形成不同的输入语句,所述不同的输入语句均输入所述预设的预训练语言模型。

10、所述步骤s4中,所述标签包括真和假,根据所述预测值的含义将所述预测值映射到相应的标签。

11、若所述预测值为真实、信服或true,将所述预测值映射所述真的标签,所述待检测信息为真实信息;

12、若所述预测值为虚假、怀疑或false,将所述预测值映射所述假的标签,

13、所述待检测信息为虚假信息。

14、另一方面本专利技术提供的一种基于提示学习的虚假信息检测系统,利用上述的基于提示学习的虚假信息检测方法进行虚假信息检测;所述系统包括:

15、预设模板设置模块,用于针对虚假信息检测任务构造预设模板,所述预设模板包括待预测变量;

16、提示学习模板设置模块,用于将所述预设模板与输入变量拼接,本文档来自技高网...

【技术保护点】

1.一种基于提示学习的虚假信息检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤S1中,所述预设模板为“这是一条[MASK]信息”或“大众对这条信息[MASK]”,其中[MASK]为所述待预测变量。

3.如权利要求2所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤S2中,在所述输入变量分别与不同的预设模板拼接,形成不同的提示学习模板。

4.如权利要求3所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤S3中,所述预设的预训练语言模型为MLM模型,所述待检测信息代入所述输入变量后,形成不同的输入语句,所述不同的输入语句均输入所述预设的预训练语言模型。

5.如权利要求1所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤S4中,所述标签包括真和假,根据所述预测值的含义将所述预测值映射到相应的标签。

6.如权利要求5所述的基于提示学习的虚假信息检测方法,其特征在于,

7.一种基于提示学习的虚假信息检测系统,其特征在于,利用如权利要求1-6中任一项所述的基于提示学习的虚假信息检测方法进行虚假信息检测;所述系统包括:

8.如权利要求7所述的基于提示学习的虚假信息检测系统,其特征在于,

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,存储有至少一个指令,其特征在于,所述至少一个指令被电子设备中的处理器执行时实现如权利要求1至6中任一所述的基于提示学习的虚假信息检测方法。

...

【技术特征摘要】

1.一种基于提示学习的虚假信息检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤s1中,所述预设模板为“这是一条[mask]信息”或“大众对这条信息[mask]”,其中[mask]为所述待预测变量。

3.如权利要求2所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤s2中,在所述输入变量分别与不同的预设模板拼接,形成不同的提示学习模板。

4.如权利要求3所述的基于提示学习的虚假信息检测方法,其特征在于,所述步骤s3中,所述预设的预训练语言模型为mlm模型,所述待检测信息代入所述输入变量后,形成不同的输入语句,所述不同的输入语句均输入所述预设的预训练语言模型。

5.如权利要求1所...

【专利技术属性】
技术研发人员:许诺
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1