一种早期谣言检测方法、系统、电子设备及存储介质技术方案

技术编号:37668696 阅读:13 留言:0更新日期:2023-05-26 04:29
本发明专利技术公开一种早期谣言检测方法、系统、电子设备及存储介质,涉及文本识别技术领域,包括:对源推文和源推文回复进行预处理;根据预处理后的源推文进行证据检索,提取出与预处理后的源推文有关的证据;根据预处理后的源推文回复进行情感分析,得到预处理后的源推文回复中的情感状态;将证据、预处理后的源推文和预处理后的源推文回复作为图结构中点输入,将情感状态作为图结构中边输入,构建异构图神经网络;利用证据、预处理后的源推文和预处理后的源推文回复训练异构图神经网络,得到训练后的异构图神经网络;利用训练后的异构图神经网络对早期谣言进行检测。本发明专利技术可提高早期谣言检测的准确性和可解释性。检测的准确性和可解释性。检测的准确性和可解释性。

【技术实现步骤摘要】
一种早期谣言检测方法、系统、电子设备及存储介质


[0001]本专利技术涉及文本识别
,特别是涉及一种早期谣言检测方法、系统、电子设备及存储介质。

技术介绍

[0002]随着互联网的快速发展,社交媒体已经成为用户获取信息、表达意见和相互交流的一个方便的在线平台。与此同时,很多不法分子在社交媒体上故意传播谣言以获取特定的商业或政治目的。例如某些公司采取购买水军和网络流量来打压污蔑竞争者,为自己的产品谋求知名度。随着谣言的传播与泛滥,越来越多的用户开始暴露在各种谣言之下,而谣言可能会误导读者,制造舆论,引发信任危机,扰乱社会秩序,给社会带来巨大的危害,造成很大的经济损失,谣言已经成为了目前不可忽视的社会问题。针对谣言可能带来的恐慌和威胁,如今迫切需要找到一种有效、尽早识别社交媒体中谣言的方法。
[0003]早期谣言检测的难点在于,在谣言传播的早期,其内容信息非常少,难以为模型提供准确充足的信息用于谣言检测,因而难以对谣言进行准确判断。
[0004]目前已有一些关于谣言检测的研究成果,根据谣言检测的算法原理,谣言检测算法大体可以分为三类:基于特征驱动的方法、基于内容驱动的方法、基于特征和内容混合驱动的方法。基于特征驱动的方法需要进行大量的特征提取工程,难以实现快速识别谣言的效果,基于内容驱动的方法是一种基于自然语言处理的方法,但是该方法只考虑了文本信息,不能够很好的处理每个传播节点之间推文信息的关系,因此也难以高效识别社交媒体中的谣言。基于特征和内容混合驱动的方法结合了特征工程和文本信息来对谣言进行检验,一般多采用混合任务方法来联合训练,以提升模型效果。
[0005]现有的谣言检测方法大都采用基于特征和内容混合驱动的方法,将谣言检测任务大致表述为自然语言分类任务,该任务的目标是简单地将给定的文本声明标记为谣言或非谣言,即现有的谣言检测方法评判后只是有一个是或者否作为结果。但是,仅仅对可疑的言论做出判断,是不足以让人理解和解释为什么是谣言的,即仅仅对可疑的言论做出判断难以令人信服。一个好的谣言检测系统应该具有两个基本功能,即谣言识别功能和证据提供功能。为谣言提供证据,通过证据可以了解到为什么某段文本是谣言。证据不仅可以为谣言检测提供可解释性,而且可以在谣言检测模块与原本数据共同进行训练,提高模型效果。然而目前现有的谣言检测方法只能够识别谣言,无法提供证据,模型效果较差,因此早期谣言检测的准确性和可解释性较低。

技术实现思路

[0006]本专利技术的目的是提供一种早期谣言检测方法、系统、电子设备及存储介质,既能够识别谣言,又能够提供证据,可以提高早期谣言检测的准确性和可解释性。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种早期谣言检测方法,所述方法包括:
[0009]获取源推文和源推文回复;
[0010]对所述源推文和所述源推文回复进行预处理,得到预处理后的源推文和预处理后的源推文回复;
[0011]根据所述预处理后的源推文进行证据检索,提取出与所述预处理后的源推文有关的证据;
[0012]根据所述预处理后的源推文回复进行情感分析,得到所述预处理后的源推文回复中的情感状态;
[0013]将所述证据、所述预处理后的源推文和所述预处理后的源推文回复作为图结构中点输入,将所述情感状态作为图结构中边输入,构建异构图神经网络;
[0014]利用所述证据、所述预处理后的源推文和所述预处理后的源推文回复训练所述异构图神经网络,得到训练后的异构图神经网络;
[0015]利用所述训练后的异构图神经网络对早期谣言进行检测。
[0016]可选地,对所述源推文和所述源推文回复进行预处理,得到预处理后的源推文和预处理后的源推文回复,具体包括:
[0017]对所述源推文和所述源推文回复进行分词、停用词以及简繁转换,得到预处理后的源推文和预处理后的源推文回复。
[0018]可选地,根据所述预处理后的源推文进行证据检索,提取出与所述预处理后的源推文有关的证据,具体包括:
[0019]选择与所述预处理后的源推文相关的维基百科文档,通过关键字匹配缩小搜索空间进行证据检索,采用深层结构语义模型计算所述预处理后的源推文与文档之间的相似度,根据所述预处理后的源推文与文档之间的相似度选取出证据文档;
[0020]从选取出的所述证据文档中提取出证据句,采用深层结构语义模型计算所述预处理后的源推文与所述证据句之间的相似度,根据所述预处理后的源推文与所述证据句之间的相似度选取出与所述预处理后的源推文有关的证据。
[0021]可选地,根据所述预处理后的源推文回复进行情感分析,得到所述预处理后的源推文回复中的情感状态,具体包括:
[0022]利用预训练模型获取所述预处理后的源推文回复的词向量编码,利用情感分析模型从所述词向量编码中获取句子中的隐藏信息作为句向量;
[0023]将所述句向量输入自注意力层,计算注意力权重,获得权重特征;
[0024]将所述权重特征通过全连接层后利用softmax函数得到所述预处理后的源推文回复中的情感状态。
[0025]本专利技术还提供了如下方案:
[0026]一种早期谣言检测系统,所述系统包括:
[0027]源推文和回复获取模块,用于获取源推文和源推文回复;
[0028]预处理模块,用于对所述源推文和所述源推文回复进行预处理,得到预处理后的源推文和预处理后的源推文回复;
[0029]证据检索模块,用于根据所述预处理后的源推文进行证据检索,提取出与所述预处理后的源推文有关的证据;
[0030]情感分析模块,用于根据所述预处理后的源推文回复进行情感分析,得到所述预
处理后的源推文回复中的情感状态;
[0031]异构图神经网络构建模块,用于将所述证据、所述预处理后的源推文和所述预处理后的源推文回复作为图结构中点输入,将所述情感状态作为图结构中边输入,构建异构图神经网络;
[0032]异构图神经网络训练模块,用于利用所述证据、所述预处理后的源推文和所述预处理后的源推文回复训练所述异构图神经网络,得到训练后的异构图神经网络;
[0033]早期谣言检测模块,用于利用所述训练后的异构图神经网络对早期谣言进行检测。
[0034]可选地,所述预处理模块具体包括:
[0035]预处理单元,用于对所述源推文和所述源推文回复进行分词、停用词以及简繁转换,得到预处理后的源推文和预处理后的源推文回复。
[0036]可选地,所述证据检索模块具体包括:
[0037]证据文档检索单元,用于选择与所述预处理后的源推文相关的维基百科文档,通过关键字匹配缩小搜索空间进行证据检索,采用深层结构语义模型计算所述预处理后的源推文与文档之间的相似度,根据所述预处理后的源推文与文档之间的相似度选取出证据文档;
[0038]证据检索单元,用于从选取出的所述证据文档中提取出证据句,采用深层结构语义模型计算所述预处理后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种早期谣言检测方法,其特征在于,所述方法包括:获取源推文和源推文回复;对所述源推文和所述源推文回复进行预处理,得到预处理后的源推文和预处理后的源推文回复;根据所述预处理后的源推文进行证据检索,提取出与所述预处理后的源推文有关的证据;根据所述预处理后的源推文回复进行情感分析,得到所述预处理后的源推文回复中的情感状态;将所述证据、所述预处理后的源推文和所述预处理后的源推文回复作为图结构中点输入,将所述情感状态作为图结构中边输入,构建异构图神经网络;利用所述证据、所述预处理后的源推文和所述预处理后的源推文回复训练所述异构图神经网络,得到训练后的异构图神经网络;利用所述训练后的异构图神经网络对早期谣言进行检测。2.根据权利要求1所述的早期谣言检测方法,其特征在于,对所述源推文和所述源推文回复进行预处理,得到预处理后的源推文和预处理后的源推文回复,具体包括:对所述源推文和所述源推文回复进行分词、停用词以及简繁转换,得到预处理后的源推文和预处理后的源推文回复。3.根据权利要求1所述的早期谣言检测方法,其特征在于,根据所述预处理后的源推文进行证据检索,提取出与所述预处理后的源推文有关的证据,具体包括:选择与所述预处理后的源推文相关的维基百科文档,通过关键字匹配缩小搜索空间进行证据检索,采用深层结构语义模型计算所述预处理后的源推文与文档之间的相似度,根据所述预处理后的源推文与文档之间的相似度选取出证据文档;从选取出的所述证据文档中提取出证据句,采用深层结构语义模型计算所述预处理后的源推文与所述证据句之间的相似度,根据所述预处理后的源推文与所述证据句之间的相似度选取出与所述预处理后的源推文有关的证据。4.根据权利要求1所述的早期谣言检测方法,其特征在于,根据所述预处理后的源推文回复进行情感分析,得到所述预处理后的源推文回复中的情感状态,具体包括:利用预训练模型获取所述预处理后的源推文回复的词向量编码,利用情感分析模型从所述词向量编码中获取句子中的隐藏信息作为句向量;将所述句向量输入自注意力层,计算注意力权重,获得权重特征;将所述权重特征通过全连接层后利用softmax函数得到所述预处理后的源推文回复中的情感状态。5.一种早期谣言检测系统,其特征在于,所述系统包括:源推文和回复获取模块,用于获取源推文和源推文回复;预处理模块,用于对所述源推文和所述源推文回复进行预处理,得到预处理后的源推文和预处理后的源推文回复;证据检索模块,用于根据所述预处理后的...

【专利技术属性】
技术研发人员:皮德常王骏龙徐悦
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1