一种基于情感分析的微博谣言检测方法技术

技术编号：27840215 阅读：22 留言：0更新日期：2021-03-30 12:23

本发明专利技术涉及自然语言处理领域，公开了一种基于情感分析的微博谣言检测方法，包括采集微博数据集，对微博数据集进行降噪处理；利用中文分词工具对降噪处理后的微博数据集进行分词，通过XLNet预训练方法训练词向量数据集；利用Transformer解码器模型提取关于微博正文内容的语义特征；利用BiLSTM+Attention网络提取关于微博评论的情感特征；通过至少一层全连接神经网络将语义特征及情感特征进行特征融合，最后一层全连接层连接分类器，分类器输出微博事件谣言检测的分类结果。本发明专利技术构造了基于情感分析的微博谣言检测模型，实现了包含评论情感信息的微博谣言自动识别，加入了微博评论的情感特征，提高了微博谣言检测自动识别效果。提高了微博谣言检测自动识别效果。提高了微博谣言检测自动识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于情感分析的微博谣言检测方法

[0001]本专利技术涉及自然语言处理领域，具体地涉及一种基于情感分析的微博谣言检测方法。

技术介绍

[0002]目前，微博谣言检测多侧重于挖掘微博内容的语义特征，利用机器学习的方法对已标注的特征构建分类器，或利用深度学习模型自动学习有效的特征来识别谣言。但基于机器学习的谣言检测模型依赖于人工提取特征，非常耗时耗力；手工设计的特征往往存在特定的局限性，泛化性能较差。手工制作的特征常会缺乏从谣言文本内容中提取的深层次表征。传统的序列化深度学习模型由于只考虑到从前往后或从后往前单方向挖掘文本，无法实现同时双向挖掘；且循环神经网络存在梯度消失和不容易平行化的问题。LSTM和GRU虽然可以缓解梯度消失的问题，但不能彻底解决梯度消失和不容易平行化的问题。另外，基于卷积神经网络的谣言检测模型更侧重于提取局部特征，虽然充分考虑了微博的句义，但是微博事件中的微博在时间上存在着先后顺序，因此存在序列相关特征，而该模型无法学习序列相关特征。同时，微博用户的页面结构不仅有微博正文还包括大量的微博评论信息，评论中包含评论者对微博事件的态度、观点和用户隐藏其中的情感宣泄。但现有技术中常忽略掉这一重要特征，使得微博谣言检测自动识别效果差。

技术实现思路

[0003]本专利技术提供一种基于情感分析的微博谣言检测方法，从而解决现有技术的上述问题。
[0004]一种基于情感分析的微博谣言检测方法，包括以下步骤：
[0005]S1)采集微博数据集，对所述微博数据集进行降噪处理，获得降噪...

【技术保护点】

【技术特征摘要】
1.一种基于情感分析的微博谣言检测方法，其特征在于，包括以下步骤：S1)采集微博数据集，对所述微博数据集进行降噪处理，获得降噪处理后的微博数据集；所述微博数据集包括若干个微博事件，所述微博事件包括微博正文内容和微博评论；S2)利用中文分词工具对所述降噪处理后的微博数据集进行分词，获得词向量数据集，通过XLNet预训练方法训练所述词向量数据集，获得若干个微博事件的嵌入矩阵；S3)建立Transformer解码器模型，利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征；建立BiLSTM+Attention网络，利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征；S4)通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合，最后一层全连接层连接分类器，所述分类器输出微博事件谣言检测的分类结果。2.根据权利要求1所述的基于情感分析的微博谣言检测方法，其特征在于，所述微博正文内容和微博评论分别包括微博文本数据和/或微博非文本数据，所述非文本数据包括超链接、标签、图片应用、停用词和/或标点符号。3.根据权利要求1或2所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S2)中，利用中文分词工具对所述降噪处理后的微博数据集进行分词，获得词向量数据集，包括将任意一个微博事件的微博文本表示为w＝{w1,w2,...,w
i
,...,w
n
}，n表示微博文本的长度，w
i
为微博文本w中的第i个词，利用中文分词工具对所述降噪处理后的微博数据集进行分词处理后得到词向量为x＝{x1,x2,...,x
i
,...,x
n
}，x
i
为微博文本x中的第i个词向量；所述微博文本x为微博正文文本或微博评论文本。4.根据权利要求3所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S2)中，通过XLNet预训练方法训练所述词向量数据集，获得若干个微博事件的嵌入矩阵，通过XLNet预训练方法对所述词向量数据集中每一个词向量分别进行排列操作，所述排列操作用于对词向量中的所有单词随机生成不同顺序，词向量的长度为T，对于词向量中的任一单词x
i
,出现在所述单词x
i
后面的词{x
i+1
,
…
,x
n
}通过所述排列操作能出现在所述单词x
i
前面，将长度为T的词向量的所有排列组合集合为Z
T
，设zt为词向量中的第t个元素，z<t表示z∈Z
T
的第1个元素到第t
‑
1个元素，通过XLNet预训练方法训练所述词向量数据集的最终优化目标，所述最终优化目标表示为θ为待训练的模型参数。5.根据权利要求4所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S3)中，建立Transformer解码器模型，所述Transformer解码器模型包括6个相同的层，每一层包括两个子层，所述两个子层包括多头注意力机制层和...

【专利技术属性】
技术研发人员：冯茹嘉，张海军，
申请(专利权)人：新疆师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人