一种微博谣言检测方法技术

技术编号:26418583 阅读:15 留言:0更新日期:2020-11-20 14:13
本发明专利技术提供了一种微博谣言检测方法,考虑了注意力机制,该方法包含如下步骤:收集微博事件和相应评论数据集作为样本数据;对所述样本数据进行预处理,分别提取原微博与评论的文本内容;采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;采用深度学习方法Text CNN‑Attention对向量矩阵进行训练,构建多层次训练模型;根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。本发明专利技术较之传统谣言检测方法提高了准确率。

【技术实现步骤摘要】
一种微博谣言检测方法
本专利技术属于自然语言处理
,尤其涉及一种微博谣言检测方法。
技术介绍
谣言一般是指未经核实的陈述或说明,往往与某一事件相关。随着社交媒体的迅速发展,谣言可以通过社交媒体以核裂变的速度迅速传播。社交媒体之一的微博,即微型博客,是Web2.0时代新兴的一类开放互联网社交服务。用户可以借助于互联网或手机等传播媒介,随时随地的用简短的文字更新自己的微博,同更多的用户分享信息。微博与传统博客相比,在传播特性上表现出:即时的博文分享、创新的交互方式、生动的现场演绎。在传播效应上表现出:人气积累、经济快捷的品牌营销。但是,多元化的传播中,自由化的传播内容、平民化的传播者和广泛的受众、多样化的传播渠道,推动了谣言在微博上的传播与扩散。微博上谣言的传播多通过用户与用户之间关于信息的评论与转发来进行,若虚假谣言被广泛传播,则对社会产生一定的负面影响。关于谣言检测的办法一般分为两类:一类是机器学习基于传统的人工提取特征的方法,从谣言内容、谣言用户、谣言传播三个方面搭配情感极性、用户影响力等因素挖掘特征并通过贝叶斯、决策树等分类器进行谣言检测;另一类是基于深度学习方法通过构造神经网络并搭配非线性函数学习文本中的潜在特征,通过CNN、RNN等神经网络模型对文本序列进行特征表示学习,最后通过非线性分类器进行谣言检测。目前通过深度学习构造神经网络对谣言检测的研究中预训练模型大多采用的是word2vec词向量或ELMo,但前者中得出的词向量无法解决多义词的问题使得训练出的每个词只能对应一个向量表示,而后者可以根据上下文动态调整词嵌入,但是使用LSTM进行特征抽取而不是Transformer,并且ELMo使用上下文向量拼接作为当前向量,这样融合出的向量特征较差。训练模型多采用CNN或RNN网络,但CNN网络虽然可以提取句义特征却忽略了上下文语序特征,并且CNN网络经过全连接操作后将池化所得特征拼接时无法对影响较明显的特征进行区分。本专利技术针对目前存在的挑战提出一种新的考虑注意力机制的谣言检测模型,在文本预处理方面选用能够提取文本潜在特征的BERT预训练模型,训练模型上在CNN模型中引入了注意力机制,能够自动根据事件影响力不同分配不同的权重,最后使用Softmax分类器进行谣言检测。有鉴于此,有必要设计一种微博谣言检测方法,以解决上述问题。
技术实现思路
本专利技术的目的是提供一种准确率较高的微博谣言检测方法。为实现以上目的,本专利技术提供了一种微博谣言检测方法,包含如下步骤:A、收集微博事件和相应评论数据集作为样本数据;B、对样本数据进行预处理,分别提取原微博与评论的文本内容;C、采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;D、构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;E、采用深度学习方法TextCNN-Attention对向量矩阵进行训练,构建多层次训练模型;F、根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。作为本专利技术的进一步改进,所述样本数据包括谣言样本数据和非谣言样本数据。作为本专利技术的进一步改进,所述步骤B中,使用正则表达式清除json文件中的噪声。作为本专利技术的进一步改进,所述进行完预训练的全部文本按照训练数据与测试数据按照4:1的比例用于后续模型的处理。作为本专利技术的进一步改进,预训练的BERT模型与代码能够实现词向量的嵌入。作为本专利技术的进一步改进,所述BERT模型作为词向量模型,能够充分描述字符级、词级、句子级以至于句子间关系特征,将NLP任务逐渐移到预训练产生句向量上。作为本专利技术的进一步改进,所述BERT模型提出预训练目标:遮蔽语言模型(maskedlanguagemodel,MLM),克服传统的单向性局限,MLM目标允许表征融合左右两侧的语境,从而可以预训练一个深度双向的Transformer。作为本专利技术的进一步改进,所述BERT模型引入了“下一句预测”任务,可以和MLM共同训练文本对的表示。作为本专利技术的进一步改进,所述BERT模型运用句子级负采样,预测输入BERT的两端文本是否连续;在训练过程中,输入模型的第二段将从所有文本中随机选择,概率为50%,其余50%将选择第一段的后续文本。作为本专利技术的进一步改进,所述构建多层次训练模型由TextCNN和注意力机制两部分组成;其中,TextCNN模型使用三个卷积尺寸分别为3,4,5的卷积核对待测向量矩阵进行卷积操作,得到关于不同卷积核基于向量矩阵的不同的特征表示,通过池化操作每个卷积核对应输入矩阵只产生一个最大特征,再通过全连接操作将不同尺寸卷积核所得特征表示相连;注意力机制对全连接后产生的特征表示根据每个特征按照对输出影响力的不同赋予不同的权重,使得影响力大的特征在进行谣言检测时会拥有更大的影响力。本专利技术的有益效果如下:本专利技术微博谣言检测方法,在文本预处理阶段运用了BERT预训练模型,使用Transformer能更高效的捕捉更长距离的依赖,可以挖掘深层的上下文信息,使得预训练出来的句向量具有更好的潜在特征;训练模型引入了注意力机制通过给不同的特征根据其影响力赋予不同的权重,这样对输出结果影响较大的特征就会被赋予更多的权重,从而对结果产生更重要的影响,有利于进行谣言检测,提高检测的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅只是本专利技术的一些实施例。其中:图1为谣言检测的通用流程图;图2为BERT模型的结构示意图;图3为本专利技术考虑注意力机制的微博谣言检测方法的流程图;图4为神经网络TextCNN模型的结构示意图;图5为引入注意力机制的结构示意图;图6为实施例一实验结果MATLAB仿真图;图7为实施例二实验结果MATLAB仿真图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术一种微博谣言检测方法,考虑了注意力机制,该方法整体流程如图1所示,主要包含以下步骤:步骤1,收集微博事件及相应评论数据作为样本数据;这里的样本数据包含谣言样本数据和非谣言样本数据;谣言样本数据标签为“1”,非谣言样本数据标签为“0”。步骤2,对样本数据进行预处理,使用正则表达式提取相应文本内容;预处理主要目的是去除文本中的噪声,包括非中文字符、标点、停用词等。由于样本数据都是以json格式的文件进行储存;json文件是以“键值对”的形式储存数据,将数据名称作为json文件中的键,爬取到的数据值作为json文件中的值,例如“text:早餐。不许联想,以免跨省。”;单个微博原事件的全部数据为一个json文件,单个事件的所有评论的全部数据为一个json文件;使用正则表达式去除json文本文档来自技高网
...

【技术保护点】
1.一种微博谣言检测方法,其特征在于,包含如下步骤:/nA、收集微博事件和相应评论数据集作为样本数据;/nB、对所述样本数据进行预处理,分别提取原微博与评论的文本内容;/nC、采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;/nD、构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;/nE、采用深度学习方法Text CNN-Attention对向量矩阵进行训练,构建多层次训练模型;/nF、根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。/n

【技术特征摘要】
1.一种微博谣言检测方法,其特征在于,包含如下步骤:
A、收集微博事件和相应评论数据集作为样本数据;
B、对所述样本数据进行预处理,分别提取原微博与评论的文本内容;
C、采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;
D、构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;
E、采用深度学习方法TextCNN-Attention对向量矩阵进行训练,构建多层次训练模型;
F、根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。


2.根据权利要求1所述的微博谣言检测方法,其特征在于:所述样本数据包括谣言样本数据和非谣言样本数据。


3.根据权利要求1所述的微博谣言检测方法,其特征在于:步骤B中,使用正则表达式清除json文件中的噪声。


4.根据权利要求3所述的微博谣言检测方法,其特征在于:所述进行完预训练的全部文本按照训练数据与测试数据按照4:1的比例用于后续模型的处理。


5.根据权利要求4所述的微博谣言检测方法,其特征在于:预训练的BERT模型与代码能够实现词向量的嵌入。


6.根据权利要求5所述的微博谣言检测方法,其特征在于:所述BERT模型作为词向量模型,能够充分描述字符级、词级、句子级以至于句子间关系特征,将NLP任务逐渐...

【专利技术属性】
技术研发人员:宋玉蓉潘德宇
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1