基于微博评论构建公民接种新冠疫苗的情感分类方法技术

技术编号:30964384 阅读:32 留言:0更新日期:2021-11-25 20:30
本发明专利技术提供一种基于微博评论构建公民接种新冠疫苗的情感分类方法,涉及数据分析技术领域。本发明专利技术在一般嵌入的基础上,添加了一层特定领域的嵌入,将嵌入向量作为输入经过BiLSTM网络层进行特征学习,而后利用注意力层强调关注重点情感词对文本的不同权重分配,最后利用softmax对文本进行具体情感分类,从而确定文本情感倾向,该基于循环神经网络的情感分析方法,在已挖掘的关于新冠疫苗评论的数据集上进行实验分析,使得该模型能够更好的抽取关于新冠疫苗评论文本的特征,提升该模型情感倾向分析的准确率;通过设计对比实验,该方法在准确率和损失率评价指标上取得了有效改善,具有一定的应用价值。具有一定的应用价值。具有一定的应用价值。

【技术实现步骤摘要】
基于微博评论构建公民接种新冠疫苗的情感分类方法


[0001]本专利技术涉及数据分析
,尤其涉及一种基于微博评论构建公民接种新冠疫苗的情感分类方法。

技术介绍

[0002]现如今,随着科学技术和网络营销的快速发展,人们对社交媒体的依赖程度显著增加。《2021年全球数字报告》显示,互联网技术已成为人们生活不可或缺的一部分。截止2021 年1月,全球有42亿社交媒体用户。同比去年,这一数字增长了4.9亿,同比增长超过13%。尤其是面临特殊事件时,广大公民以互联网为载体,在网上发表自己情感、态度、意见,并相互传播与互动,使得信息传播速度快、范围广。所产生的海量数据,如果仅依靠人工进行文本的分析和挖掘,无疑是一件非常庞大且繁复的工作。如果能够从海量数据中,自动提取文本特征,从积极和消极评论中提取更深层次的语义信息,从而更加有利于分析舆论导向,有利于政府及时做出决策。因此,基于社交媒体研究公民对某一事件的情感分析是非常有意义的。

技术实现思路

[0003]针对现有技术存在的问题,本专利技术提供一种基于微博评论构建公民接种新冠疫苗的情感本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,包括以下步骤:步骤1:对微博评论数据进行预处理;通过正则化将微博评论数据进行预处理,并存储为tsv格式;所述正则化包括数据清洗,数据集成,数据规约以及数据变换;步骤2:对微博评论数据进行增强,实现自然语言翻译;通过数据回译,利用翻译软件将步骤1获得的数据翻译为英文,再反向翻译为中文以增强数据的多样性;步骤3:对步骤1和步骤2所获得tsv数据和增强后的中文数据进行标签标注;步骤4:将tsv数据和增强后的中文数据映射为词向量;给定一条微博评论句子S={w1,w2,

,w
n
},其中w
n
为单词,n为单词个数,将每个单词映射成一个连续向量,组成向量空间E∈R
n*d
,其中d为词嵌入维度,词嵌入包括一般嵌入以及特定领域嵌入;步骤5:构建卷积神经网络模型LSTM+Attention,将词嵌入向量送入LSTM循环神经网络,经过输入层,隐藏层的非线性变化,再将隐藏层输出的向量送入注意力机制,即Attention机制,生成权重,最后输出每个句子的分类;步骤6:将s
i
输入到LSTM+Attention模型里最后一层

Softmax层得到分类标签y,分类标签y为一个5维向量,且向量加和为1,找到最大概率类,即得到情感极性类别。2.根据权利要求1所述的一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,步骤3中所述标签标注使用手工标注,将所有数据分为5类,其中第一类为接种疫苗且无不良反应;第二类为号召接种疫苗;第三类为接种新冠疫注意事项;第四类为疫苗预约不上;第五类为拒绝接种疫苗或者接种后产生不良身体反应。3.根据权利要求1所述的一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,步骤4中所述一般嵌入是使用词向量算法GloVe算法对中文语料库训练所得出的300维词嵌入向量E1,得到句子S的一般嵌入为E1=[e1,e2,

e
n
],E1∈R
n*d
.e1指的是将第一个单词映射为d维的向量,n表示单词个数;所述特定领域嵌入是使用word2vec算法,语料库为tsv数据和增强后的中文数据,得到句子S的特定领域嵌入为E2=[c1,c2,

c
n
],E2∈R
n*d
.c1指的是将第一个单词映射为d维的向量,n表示单词个数。4.根据权利要求1所述的一种基于微博评论构建公民接种新冠疫苗的情感分类方法,其特征在于,步骤5中所述LSTM循环神经网络采用控制门的机制,由单元状态、输入门、输出门、遗忘门组成;LSTM循环神经网络的运行过程如下所示:步骤S1:输入门,设i
t
表示在t时刻输入值X
t
保存到单元状态值C
t
的权重,a
t
表示在t时刻输入值X
t
时的单元状态;i
t
=σ((W
i
*(h
t
‑1,X
t
)+b
i
)(1)a
t
=tanh...

【专利技术属性】
技术研发人员:黄碧刘军涛原慧琳
申请(专利权)人:东北大学秦皇岛分校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1