【技术实现步骤摘要】
基于微博评论构建公民接种新冠疫苗的情感分类方法
[0001]本专利技术涉及数据分析
,尤其涉及一种基于微博评论构建公民接种新冠疫苗的情感分类方法。
技术介绍
[0002]现如今,随着科学技术和网络营销的快速发展,人们对社交媒体的依赖程度显著增加。《2021年全球数字报告》显示,互联网技术已成为人们生活不可或缺的一部分。截止2021 年1月,全球有42亿社交媒体用户。同比去年,这一数字增长了4.9亿,同比增长超过13%。尤其是面临特殊事件时,广大公民以互联网为载体,在网上发表自己情感、态度、意见,并相互传播与互动,使得信息传播速度快、范围广。所产生的海量数据,如果仅依靠人工进行文本的分析和挖掘,无疑是一件非常庞大且繁复的工作。如果能够从海量数据中,自动提取文本特征,从积极和消极评论中提取更深层次的语义信息,从而更加有利于分析舆论导向,有利于政府及时做出决策。因此,基于社交媒体研究公民对某一事件的情感分析是非常有意义的。
技术实现思路
[0003]针对现有技术存在的问题,本专利技术提供一种基于微博评论构建公 ...
【技术保护点】
【技术特征摘要】
1.一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,包括以下步骤:步骤1:对微博评论数据进行预处理;通过正则化将微博评论数据进行预处理,并存储为tsv格式;所述正则化包括数据清洗,数据集成,数据规约以及数据变换;步骤2:对微博评论数据进行增强,实现自然语言翻译;通过数据回译,利用翻译软件将步骤1获得的数据翻译为英文,再反向翻译为中文以增强数据的多样性;步骤3:对步骤1和步骤2所获得tsv数据和增强后的中文数据进行标签标注;步骤4:将tsv数据和增强后的中文数据映射为词向量;给定一条微博评论句子S={w1,w2,
…
,w
n
},其中w
n
为单词,n为单词个数,将每个单词映射成一个连续向量,组成向量空间E∈R
n*d
,其中d为词嵌入维度,词嵌入包括一般嵌入以及特定领域嵌入;步骤5:构建卷积神经网络模型LSTM+Attention,将词嵌入向量送入LSTM循环神经网络,经过输入层,隐藏层的非线性变化,再将隐藏层输出的向量送入注意力机制,即Attention机制,生成权重,最后输出每个句子的分类;步骤6:将s
i
输入到LSTM+Attention模型里最后一层
‑
Softmax层得到分类标签y,分类标签y为一个5维向量,且向量加和为1,找到最大概率类,即得到情感极性类别。2.根据权利要求1所述的一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,步骤3中所述标签标注使用手工标注,将所有数据分为5类,其中第一类为接种疫苗且无不良反应;第二类为号召接种疫苗;第三类为接种新冠疫注意事项;第四类为疫苗预约不上;第五类为拒绝接种疫苗或者接种后产生不良身体反应。3.根据权利要求1所述的一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,步骤4中所述一般嵌入是使用词向量算法GloVe算法对中文语料库训练所得出的300维词嵌入向量E1,得到句子S的一般嵌入为E1=[e1,e2,
…
e
n
],E1∈R
n*d
.e1指的是将第一个单词映射为d维的向量,n表示单词个数;所述特定领域嵌入是使用word2vec算法,语料库为tsv数据和增强后的中文数据,得到句子S的特定领域嵌入为E2=[c1,c2,
…
c
n
],E2∈R
n*d
.c1指的是将第一个单词映射为d维的向量,n表示单词个数。4.根据权利要求1所述的一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,步骤5中所述LSTM循环神经网络采用控制门的机制,由单元状态、输入门、输出门、遗忘门组成;LSTM循环神经网络的运行过程如下所示:步骤S1:输入门,设i
t
表示在t时刻输入值X
t
保存到单元状态值C
t
的权重,a
t
表示在t时刻输入值X
t
时的单元状态;i
t
=σ((W
i
*(h
t
‑1,X
t
)+b
i
)(1)a
t
=tanh...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。