一种微博谣言检测方法技术

技术编号：26418583 阅读：15 留言：0更新日期：2020-11-20 14:13

本发明专利技术提供了一种微博谣言检测方法，考虑了注意力机制，该方法包含如下步骤：收集微博事件和相应评论数据集作为样本数据；对所述样本数据进行预处理，分别提取原微博与评论的文本内容；采用BERT预训练模型对文本进行预训练，每句文本生成固定长度的句向量；构建字典，提取原微博与对应数条评论组成微博事件向量矩阵；采用深度学习方法Text CNN‑Attention对向量矩阵进行训练，构建多层次训练模型；根据多层次训练模型对向量矩阵进行分类检测，得到对应社交网络数据的谣言检测结果。本发明专利技术较之传统谣言检测方法提高了准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种微博谣言检测方法
本专利技术属于自然语言处理
，尤其涉及一种微博谣言检测方法。
技术介绍
谣言一般是指未经核实的陈述或说明，往往与某一事件相关。随着社交媒体的迅速发展，谣言可以通过社交媒体以核裂变的速度迅速传播。社交媒体之一的微博,即微型博客，是Web2.0时代新兴的一类开放互联网社交服务。用户可以借助于互联网或手机等传播媒介，随时随地的用简短的文字更新自己的微博，同更多的用户分享信息。微博与传统博客相比，在传播特性上表现出：即时的博文分享、创新的交互方式、生动的现场演绎。在传播效应上表现出：人气积累、经济快捷的品牌营销。但是，多元化的传播中，自由化的传播内容、平民化的传播者和广泛的受众、多样化的传播渠道，推动了谣言在微博上的传播与扩散。微博上谣言的传播多通过用户与用户之间关于信息的评论与转发来进行，若虚假谣言被广泛传播，则对社会产生一定的负面影响。关于谣言检测的办法一般分为两类：一类是机器学习基于传统的人工提取特征的方法，从谣言内容、谣言用户、谣言传播三个方面搭配情感极性、用户影响力等因素挖掘特征并通过贝叶斯、决策树等分类器进行谣言检测；另一类是基于深度学习方法通过构造神经网络并搭配非线性函数学习文本中的潜在特征，通过CNN、RNN等神经网络模型对文本序列进行特征表示学习，最后通过非线性分类器进行谣言检测。目前通过深度学习构造神经网络对谣言检测的研究中预训练模型大多采用的是word2vec词向量或ELMo，但前者中得出的词向量无法解决多义词的问题使得训练出的每个词只能对应一个向量表示，而后者可以根...

【技术保护点】
1.一种微博谣言检测方法，其特征在于，包含如下步骤：/nA、收集微博事件和相应评论数据集作为样本数据；/nB、对所述样本数据进行预处理，分别提取原微博与评论的文本内容；/nC、采用BERT预训练模型对文本进行预训练，每句文本生成固定长度的句向量；/nD、构建字典，提取原微博与对应数条评论组成微博事件向量矩阵；/nE、采用深度学习方法Text CNN-Attention对向量矩阵进行训练，构建多层次训练模型；/nF、根据多层次训练模型对向量矩阵进行分类检测，得到对应社交网络数据的谣言检测结果。/n

【技术特征摘要】
1.一种微博谣言检测方法，其特征在于，包含如下步骤：
A、收集微博事件和相应评论数据集作为样本数据；
B、对所述样本数据进行预处理，分别提取原微博与评论的文本内容；
C、采用BERT预训练模型对文本进行预训练，每句文本生成固定长度的句向量；
D、构建字典，提取原微博与对应数条评论组成微博事件向量矩阵；
E、采用深度学习方法TextCNN-Attention对向量矩阵进行训练，构建多层次训练模型；
F、根据多层次训练模型对向量矩阵进行分类检测，得到对应社交网络数据的谣言检测结果。

2.根据权利要求1所述的微博谣言检测方法，其特征在于：所述样本数据包括谣言样本数据和非谣言样本数据。

3.根据权利要求1所述的微博谣言检测方法，其特征在于：步骤B中，使用正则表达式清除json文件中的噪声。

4.根据权利要求3所述的微博谣言检测方法，其特征在于：所述进行完预训练的全部文本按照训练数据与测试数据按照4：1的比例用于后续模型的处理。

5.根据权利要求4所述的微博谣言检测方法，其特征在于：预训练的BERT模型与代码能够实现词向量的嵌入。

6.根据权利要求5所述的微博谣言检测方法，其特征在于：所述BERT模型作为词向量模型，能够充分描述字符级、词级、句子级以至于句子间关系特征，将NLP任务逐渐...

【专利技术属性】
技术研发人员：宋玉蓉，潘德宇，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人