一种基于情感分析的微博谣言检测方法技术

技术编号:27840215 阅读:22 留言:0更新日期:2021-03-30 12:23
本发明专利技术涉及自然语言处理领域,公开了一种基于情感分析的微博谣言检测方法,包括采集微博数据集,对微博数据集进行降噪处理;利用中文分词工具对降噪处理后的微博数据集进行分词,通过XLNet预训练方法训练词向量数据集;利用Transformer解码器模型提取关于微博正文内容的语义特征;利用BiLSTM+Attention网络提取关于微博评论的情感特征;通过至少一层全连接神经网络将语义特征及情感特征进行特征融合,最后一层全连接层连接分类器,分类器输出微博事件谣言检测的分类结果。本发明专利技术构造了基于情感分析的微博谣言检测模型,实现了包含评论情感信息的微博谣言自动识别,加入了微博评论的情感特征,提高了微博谣言检测自动识别效果。提高了微博谣言检测自动识别效果。提高了微博谣言检测自动识别效果。

【技术实现步骤摘要】
一种基于情感分析的微博谣言检测方法


[0001]本专利技术涉及自然语言处理领域,具体地涉及一种基于情感分析的微博谣言检测方法。

技术介绍

[0002]目前,微博谣言检测多侧重于挖掘微博内容的语义特征,利用机器学习的方法对已标注的特征构建分类器,或利用深度学习模型自动学习有效的特征来识别谣言。但基于机器学习的谣言检测模型依赖于人工提取特征,非常耗时耗力;手工设计的特征往往存在特定的局限性,泛化性能较差。手工制作的特征常会缺乏从谣言文本内容中提取的深层次表征。传统的序列化深度学习模型由于只考虑到从前往后或从后往前单方向挖掘文本,无法实现同时双向挖掘;且循环神经网络存在梯度消失和不容易平行化的问题。LSTM和GRU虽然可以缓解梯度消失的问题,但不能彻底解决梯度消失和不容易平行化的问题。另外,基于卷积神经网络的谣言检测模型更侧重于提取局部特征,虽然充分考虑了微博的句义,但是微博事件中的微博在时间上存在着先后顺序,因此存在序列相关特征,而该模型无法学习序列相关特征。同时,微博用户的页面结构不仅有微博正文还包括大量的微博评论信息,评论中包含评论者对微博事件的态度、观点和用户隐藏其中的情感宣泄。但现有技术中常忽略掉这一重要特征,使得微博谣言检测自动识别效果差。

技术实现思路

[0003]本专利技术提供一种基于情感分析的微博谣言检测方法,从而解决现有技术的上述问题。
[0004]一种基于情感分析的微博谣言检测方法,包括以下步骤:
[0005]S1)采集微博数据集,对所述微博数据集进行降噪处理,获得降噪处理后的微博数据集;所述微博数据集包括若干个微博事件,所述微博事件包括微博正文内容和微博评论;
[0006]S2)利用中文分词工具对所述降噪处理后的微博数据集进行分词,获得词向量数据集,通过XLNet预训练方法训练所述词向量数据集,获得若干个微博事件的嵌入矩阵;
[0007]S3)建立Transformer解码器模型,利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征;建立BiLSTM+Attention网络,利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征;
[0008]S4)通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合,最后一层全连接层连接分类器,所述分类器输出微博事件谣言检测的分类结果。
[0009]进一步的,微博正文内容和微博评论分别包括微博文本数据和/或微博非文本数据,所述非文本数据包括超链接、标签、图片应用、停用词和/或标点符号。
[0010]进一步的,在步骤S2)中,利用中文分词工具对所述降噪处理后的微博数据集进行
分词,获得词向量数据集,包括将任意一个微博事件的微博文本表示为w={w1,w2,...,w
i
,...,w
n
},n表示微博文本的长度,w
i
为微博文本w中的第i个词,利用中文分词工具对所述降噪处理后的微博数据集进行分词处理后得到词向量为x={x1,x2,...,x
i
,...,x
n
},x
i
为微博文本x中的第i个词向量;所述微博文本x为微博正文文本或微博评论文本。
[0011]进一步的,在步骤S2)中,通过XLNet预训练方法训练所述词向量数据集,获得若干个微博事件的嵌入矩阵,通过XLNet预训练方法对所述词向量数据集中每一个词向量分别进行排列操作,所述排列操作用于对词向量中的所有单词随机生成不同顺序,词向量的长度为T,对于词向量中的任一单词x
i
,出现在所述单词x
i
后面的词{x
i+1
,

,x
n
}通过所述排列操作能出现在所述单词x
i
前面,将长度为T的词向量的所有排列组合集合为Z
T
,设zt为词向量中的第t个元素,z<t表示z∈Z
T
的第1个元素到第t

1个元素,通过XLNet预训练方法训练所述词向量数据集的最终优化目标,所述最终优化目标表示为θ为待训练的模型参数。
[0012]进一步的,在步骤S3)中,建立Transformer解码器模型,所述Transformer解码器模型包括6个相同的层,每一层包括两个子层,所述两个子层包括多头注意力机制层和前馈神经网络层,利用Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征,包括以下步骤:
[0013]S31)每一个微博事件的嵌入矩阵包括关于微博正文的词向量和关于微博评论的词向量,将关于微博正文的词向量输入多头注意力机制层中,随机初始化多头注意力机制层中的权重矩阵W0以及各头注意力分别所对应的第一矩阵第二矩阵第三矩阵j∈{1、...、h},h为多头注意力机制层中头的数量;
[0014]S32)将所述关于微博正文的词向量分别进行单词嵌入操作、段落嵌入操作和位置嵌入操作,获得单词嵌入词向量、段落嵌入词向量和位置嵌入词向量;将所述单词嵌入词向量、所述段落嵌入词向量和所述位置嵌入词向量分别与所述第一矩阵所述第二矩阵和所述第三矩阵对应相乘,获得各头注意力的查询矩阵Q
j
、键矩阵K
j
和值矩阵V
j
,获得关于微博正文的词向量分别对应各头注意力的输出获得多头注意力输出结果Multihead=Concat(head1,head2,...,head
h
)W0;Concat(
·
)表示Concatenate函数;
[0015]S33)将所述多头注意力输出结果作为前馈神经网络层的输入,前馈神经网络层包括两层神经网络,第一层神经网络的激活函数是ReLU函数,第二层神经网络的激活函数是线性激活函数,获得前馈神经网络层输出结果H
Multihead
=max(0,Multihead*W1+b1)W2+b2,W1、W2分别为前馈神经网络的权重矩阵,b1、b2分别为前馈神经网络的偏置项,获得关于微博正文内容的语义特征。
[0016]进一步的,在步骤S3)中,建立BiLSTM+Attention网络,利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征,包括以下步骤:
[0017]S301)构建双向长短时记忆网络BiLSTM,获取关于微博评论的词向量并输入双向
长短时记忆网络BiLSTM进行上下文特征提取,获得t时刻前向隐层向量和t时刻后向隐层向量根据t时刻前向隐层向量和t时刻后向隐层向量获得t时刻最终隐层向量x
it
表示t时刻输入双向长短时记忆网络BiLSTM的关于微博评论的词向量;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情感分析的微博谣言检测方法,其特征在于,包括以下步骤:S1)采集微博数据集,对所述微博数据集进行降噪处理,获得降噪处理后的微博数据集;所述微博数据集包括若干个微博事件,所述微博事件包括微博正文内容和微博评论;S2)利用中文分词工具对所述降噪处理后的微博数据集进行分词,获得词向量数据集,通过XLNet预训练方法训练所述词向量数据集,获得若干个微博事件的嵌入矩阵;S3)建立Transformer解码器模型,利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征;建立BiLSTM+Attention网络,利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征;S4)通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合,最后一层全连接层连接分类器,所述分类器输出微博事件谣言检测的分类结果。2.根据权利要求1所述的基于情感分析的微博谣言检测方法,其特征在于,所述微博正文内容和微博评论分别包括微博文本数据和/或微博非文本数据,所述非文本数据包括超链接、标签、图片应用、停用词和/或标点符号。3.根据权利要求1或2所述的基于情感分析的微博谣言检测方法,其特征在于,在步骤S2)中,利用中文分词工具对所述降噪处理后的微博数据集进行分词,获得词向量数据集,包括将任意一个微博事件的微博文本表示为w={w1,w2,...,w
i
,...,w
n
},n表示微博文本的长度,w
i
为微博文本w中的第i个词,利用中文分词工具对所述降噪处理后的微博数据集进行分词处理后得到词向量为x={x1,x2,...,x
i
,...,x
n
},x
i
为微博文本x中的第i个词向量;所述微博文本x为微博正文文本或微博评论文本。4.根据权利要求3所述的基于情感分析的微博谣言检测方法,其特征在于,在步骤S2)中,通过XLNet预训练方法训练所述词向量数据集,获得若干个微博事件的嵌入矩阵,通过XLNet预训练方法对所述词向量数据集中每一个词向量分别进行排列操作,所述排列操作用于对词向量中的所有单词随机生成不同顺序,词向量的长度为T,对于词向量中的任一单词x
i
,出现在所述单词x
i
后面的词{x
i+1
,

,x
n
}通过所述排列操作能出现在所述单词x
i
前面,将长度为T的词向量的所有排列组合集合为Z
T
,设zt为词向量中的第t个元素,z&lt;t表示z∈Z
T
的第1个元素到第t

1个元素,通过XLNet预训练方法训练所述词向量数据集的最终优化目标,所述最终优化目标表示为θ为待训练的模型参数。5.根据权利要求4所述的基于情感分析的微博谣言检测方法,其特征在于,在步骤S3)中,建立Transformer解码器模型,所述Transformer解码器模型包括6个相同的层,每一层包括两个子层,所述两个子层包括多头注意力机制层和...

【专利技术属性】
技术研发人员:冯茹嘉张海军
申请(专利权)人:新疆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1