基于标题正文相似度和作者隐含情感的虚假新闻检测方法技术

技术编号:38205911 阅读:20 留言:0更新日期:2023-07-21 16:53
本发明专利技术提供了一种基于标题正文相似度和作者隐含情感的虚假新闻检测方法,该方法通过文本语义特征提取模块提取文本的语义特征;通过图像语义特征提取模块提取图像的语义特征;通过作者隐含情感特征提取模块提取文本中作者潜在的情感特征;通过标题正文相似度提取模块提取新闻标题和正文之间的相似度特征;通过虚假新闻检测模块利用得到的特征向量预测新闻的真实性。通过五个模块的共同工作,很好地捕捉多模态新闻中文本和图像的语义层次特征、包含作者主观意图的潜在情感特征以及标题正文的相似性特征,使得在复杂场景下的虚假新闻检测比现有模型更适合。本发明专利技术在两个公开数据集上相较于现存的方法展现了巨大的优势。集上相较于现存的方法展现了巨大的优势。集上相较于现存的方法展现了巨大的优势。

【技术实现步骤摘要】
基于标题正文相似度和作者隐含情感的虚假新闻检测方法


[0001]本专利技术涉及自然语言处理领域,特别涉及一种基于标题正文相似度和作者隐含情感的虚假新闻检测方法。

技术介绍

[0002]如今,越来越多的人通过社交媒体获取新闻信息。但是由于互联网的匿名性,大量虚假新闻在广泛传播的同时也难以被用户分辨。而虚假新闻的传播往往给个人和公众造成不可弥补的巨大损失和伤害。有研究对2006年至2017年Twitter上126000条经核实的真实和虚假新闻进行了彻底分析,指出虚假新闻的传播速度可能比基于事实的新闻更快、更广。同时,根据心理学和社会科学观点,虚假新闻传播得越多,社交媒体上的用户就越有可能因为重复曝光或同伴压力而传播和相信它们。因此,为了防止虚假新闻在社交媒体上传播,人们对有效识别虚假新闻进行了广泛的研究。
[0003]虚假新闻检测方法可以大致分为基于内容的方法和基于社交背景的方法。它们之间的主要区别在于它们是否依赖于社交环境信息:即新闻如何在社交媒体上传播的信息,其中包含的社交媒体用户及其联系/网络的许多辅助细节也可以被利用。虽然许多现有方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于标题正文相似度和作者隐含情感的虚假新闻检测方法,其特征在于,该方法包括以下步骤:步骤1:构建文本语义特征提取模块,通过文本语义特征提取模块分别提取新闻标题和正文的语义特征;步骤2:构建图像语义特征提取模块,通过图像语义特征提取模块提取图像的语义特征;步骤3:构建作者隐含情感特征提取模块,通过作者隐含情感特征提取模块提取文本中作者潜在的情感特征;步骤4:构建标题正文相似度提取模块,通过标题正文相似度提取模块提取新闻标题和正文之间的相似度特征;步骤5:构建虚假新闻检测模块,利用上述各步骤分别提取的新闻标题的语义特征、新闻正文的语义特征、图像的语义特征、文本中作者潜在的情感特征以及新闻标题和正文之间的相似度特征拼接得到多层次的语义特征,该多层次的语义特征通过虚假新闻检测模块预测新闻的真实性。2.根据权利要求1所述的基于标题正文相似度和作者隐含情感的虚假新闻检测方法,其特征在于,在所述文本语义特征提取模块中,对一篇包含文本内容和图片的新闻来说,其中,文本内容包括标题和正文,将新闻的正文内容输入BERT预训练模型中,从模型的倒数第二层提取出正文语义特征并通过全连接层1将提取出的正文语义特征减小到长度为32的最终正文语义特征R
T
,该过程使用下面公式(1)计算:其中:σ(*)是ReLU激活函数,W
vt
是全连接层1的权值矩阵,
×
是矩阵乘积运算符;类似地,将新闻的标题内容输入BERT预训练模型中,从模型的倒数第二层提取出标题语义特征并通过全连接层2将提取出的标题语义特征减小到长度为32的最终标题语义特征R
Ti
,该过程使用下面公式(2)计算:其中:W
vti
是全连接层2的权值矩阵。3.根据权利要求2所述的基于标题正文相似度和作者隐含情感的虚假新闻检测方法,其特征在于,在所述图像语义特征提取模块中,对一篇包含标题、正文和图片的新闻来说,将新闻图片输入ResNeSt

50预训练模型中,从模型的最后一层提取出图像特征并通过全连接层3将提取出的图像特征减小到长度为30的最终图像特征R
V
,该过程使用下面公式(3)计算:其中:W
vf
是全连接层3的权值矩阵。4.根据权利要求3所述的基于标题正文相似度和作者隐含情感的虚假新闻检测方法,其特征在于,在所述作者隐含情感特征提取模块中,使用现有的作者情感提取器从新闻文本内容中获取作者的多维情感特征,包括情感类别、情感词汇、情感强度、情感评分和其他
辅助特征,相应的特征表示分别为和将上述所有五种特征连接成长度为38的最终情感特征R
E
,使用下面公式(4)计算:其中:是向量拼接运算符。5.根据权利要求4所述的基于标题正文相似度和作者隐含情感的虚假新闻检测方法,其特征在于,在所述标题正文相似度提取模块中,对新闻的标题和正文内容,分别利用R
Ti
和R
T
,对标题语义特征和正文语义特征分别从正文施加在标题语义特征上的相似度和标题施加在正文语义特征上的相似度两个层面应用缩放的点积注意力机制,以完整地捕捉标题和正文在新闻中的相似度;当从正文施加在标题语义特征上的相似度层面应用缩放的点积注意力机制时,使用正文语义特征R
T
计算缩放点积注意力机制中的Query、标题语义特征R
Ti
计算缩放点积注意力机制中的Key和Value时,为方便表述,后续分别使用Q、K、V作为Query、Key、Value的缩写表示,Q、K和V使用下面公式(5)计算:Q=R
T
×
W
Q
,K=R
Ti
×
W
K
,V=R
Ti
×
W
V
ꢀꢀ
(5...

【专利技术属性】
技术研发人员:康昭郭泉江程宇航李凯文
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1