一种基于时序-热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法技术

技术编号:38464084 阅读:9 留言:0更新日期:2023-08-11 14:41
本发明专利技术提出一种基于时序

【技术实现步骤摘要】
一种基于时序

热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法


[0001]本专利技术涉及数据半监督分类的技术,尤其涉及一种基于时序

热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法。

技术介绍

[0002]时间序列(Time series)是指一个系统的某个指标在各个时间点上的观测数据按照时间的先后顺序所排列而成的序列数据,这种广泛存在的时间序列数据往往蕴含着潜在的变化规律。时间序列分析就是探索包含在时间序列数据中的所有信息,观察、估算和研究这样一组真实数据在长期变动过程中所存在的统计规律性。随着近来年机器学习、神经网络的高速发展和广泛使用,其与时间序列数据挖掘相结合的研究也成为热点。由于深度学习算法具有自学习、自适应以及非线性逼近的能力,可以克服传统时间序列分析方法的缺点,在时间序列预测研究上取得突出的效果。
[0003]注意力机制(Attention Mechanism)在近两年来,广泛的应用于自然语言处理等不同类型的深度学习任务中。当一个人在看一样物品的时候,目光一定是集中于在某一地方的,随着目光的移动,关注的地方也会随之变化,这就是人类视觉的“注意力”。显然,深度学习中的注意力机制借鉴了人类视觉这一特点,它的主要目的就是从输入的信息当中,找到与当前任务目标联系更加紧密、更加关键的信息。并且,在注意力领域中,与单个的注意力机制相比,多头注意力机制拥有更加广阔的关注视野:使用多个相互独立的注意力机制使网络能够关注到更多的与分类相关的令牌。多头注意力机制使用多个注意力机制(查询)来并行地处理输入数据中包含的重要信息,每个独立不关联的注意力能够关注到输入数据中不同的、利于情感分析的部分。
[0004]双向长短时记忆网络(Bi

directional LSTM)由前向神经网络和后向神经网络构成,前向神经网络负责记忆上文信息,后向神经网络负责记忆下文信息,对文本分析起到了促进作用。Bi

LSTM由两个LSTM构成,且连接着同一个输出层,为输出层的数据同时提供上下文的信息。近年来,深度学习在情感分析的研究中引起了广泛的关注。许多基于神经网络的深度学习方法已被提出用于将单词、句子、文档或关系的语义编码为分布式嵌入,并表现出令人满意的性能。其中,CNN(卷积神经网络)和RNN(递归神经网络)被广泛应用于许多句子嵌入学习任务中。CNN模型使用固定宽度的窗口特征检测器在句子上滑动,有效地提取“局部”语义特征。RNN建立在文本序列之上,可以更好地建模“全局”语义信息。.为了克服RNN模型中的梯度消失或爆炸问题,在原始的RNN模型中引入了门控机制,如LSTM(长短期记忆)和GRU(门控循环单元)。LSTM是一种特殊的循环神经网络,从它被提出发展到如今,人们已经提出了几种基于LSTM模型的变体,如LSTM

CNN模型和本文所应用的BiLSTM模型。BiLSTM模型使用了反向编码特性,这克服了无法从后到前编码信息的问题。
[0005]传统的舆情情感分类方法只单独使用单一的深度学习或将RNN等与注意力机制相结合的方法,其并没有考虑到在舆情分析中舆情发生的时间点,以及在网络中某句话的热
度效应。本专利技术创新性地将三者结合,将数据的时间特征和热度特征作为注意力机制的两种极性并且融合了双向长短时记忆网络进行对舆情的情感分析,能细致准确的提取源域时序数据和目标域时序数据的共同情感特征进行分析工作,最终达到提升舆情情感分析准确率的目的。
[0006]基于时序

热度的双注意力机制融合双向长短时记忆网络的舆情情感分析方法的应用列举及优势如下。
[0007]案例1:应用于突发公共卫生事件的舆论管理,帮助确定突发公共卫生事件中网民的情感波动及舆情演化规律,分析不同阶段、不同舆论群体之间舆情演化的时空差异及其原因,全面深入还原舆情发展的势态,了解公众在重大突发卫生事件过程中的认知、情感变化。
[0008]案例2:应用于用户评论中的情感分析,通过网络平台收集评论数据后使用该模型训练,识别人的情感趋向,并进行分类,可以运用于某商品的售后调研改进。
[0009]案例3:应用于热点事件的舆论导向。针对前期舆情的公关决策及管控措施不力,极有可能导致舆情演变激化,促使舆情扩大升级,进而形成衍生舆情。因此,及时有效地对网络舆情进行情感分析,并引入时间序列分析方法,从时间的演进维度进行预测与研究,可以充分了解网民对新闻的情感趋势及关注焦点,准确把握民众的真实诉求与心理状态的变化,防止舆情恶化。
[0010]综上所述,利用时序

热度双极注意力机制融合双向长短时记忆网络进行舆情情感分类方法,能够从时序和热度两个角度有效抓取数据的特征,将其应用于舆情情感分析的场景能达到更加全面的分析情感指数以及提高准确率的目的。

技术实现思路

[0011]本专利技术的目的就是为了解决对多文档特征情况研究较少、没有考虑社交网络文本的场景特点只从单方面进行数据分析的一类问题,而提供的一种基于时序

热度双极注意力机制融合双向长短时记忆网络的舆情情感分析方法。
[0012](一)技术方案
[0013]基于时序

热度双极注意力机制融合双向长短时记忆网络的舆情情感分析方法的基本思想是:一方面调整多头注意力机制,将我们想关注的角度加入到注意力机制中去,使用TBBA即时序

热度双极注意力机制(Timing

Beat Bicephalic Attention)提取情感特征,另一方面使用BiLSTM(Bi

directional Long Short

Term Memory)模型准确判断情感倾向,从而达到对舆情情感分析作用。
[0014]1.数据输入阶段
[0015]如图1的方法流程图所示,方法的第一步是输入数据并进行数据预处理。数据预处理的过程主要是对数据进行清洗以及使数据标准化,使其更方便构建时间序列,将数据按照时间进行排序,采用时间降序,较早的数据排列在前,以此往下进行排序。
[0016]步骤1_1句子中的每个单词通过独热编码作为一个索引嵌入:x
t
∈R
|V|
[0017]步骤1_2将索引嵌入输入到训练前层。
[0018]步骤1_3热度特征标准化。对数据的热度特征进行计算
[0019]H=(posi+nega+score)*type*fans*user*num
[0020]其中,score为情感得分,type为用户类别,fans为粉丝数量,num为单位时间数量即所发布的微博数量,user为单位时间内参与人数,这能够更好的反映舆情的发展趋势。
[0021]步骤1_4划分源域和目标域的训练集、验证集、测试集,比例为7:2:1。训练集用来训练模型,验证集用来调整模型参数,测试集用来测试模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序

热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于该方法包括以下步骤:步骤1数据输入阶段步骤2预处理阶段步骤3使用BiLSTM情感分析阶段步骤4时序

热度双注意力层阶段。2.根据权利要求1所述的一种基于时序

热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于,所述步骤1中的数据输入阶段,具体步骤为:步骤1_1句子中的每个单词通过独热编码作为一个索引嵌入:x
t
∈R
|V|
步骤1_2将索引嵌入输入到训练前层。步骤1_3热度特征标准化。对数据的热度特征进行计算H=(posi+nega+score)*type*fans*user*num其中,score为情感得分,type为用户类别,fans为粉丝数量,num为单位时间数量即所发布的微博数量,能够更好的反映舆情的发展趋势,user为单位时间内参与人数。步骤1_4划分源域和目标域的训练集、验证集、测试集,比例为7:2:1。训练集用来训练模型,验证集用来调整模型参数,测试集用来测试模型的最终性能。3.根据权利要求1所述的一种基于时序

热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于,所述步骤2中的预处理阶段,具体步骤为:步骤2_1将单词嵌入查找表中:步骤2_2在动态部分,我们使用Elmo层对每个单词的上下文信息进行动态编码:其中和分别表示通过语言模型LM进行优化的前、后BiLSTM编码器的隐藏层输出。步骤2_3使用Bert对每个单词的上下文信息进行动态编码,提高精度:W
t
=Concat(head1,..
·
,head
h
)W0head
i
=Attention(QW
iQ
KW
iK
,VW
iV
)其中d
k
是注意力机制的维度,q,k,v是隐藏状态。4.根据权利要求1所述的一种基于时序

热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于,所述步骤3中的使用BiLSTM情感分析阶段,具体步骤为:步骤3_1将预训练层得到的分布式向量从前往后输入到一个独立的LSTM单元中:f
t
=σ(W
f
·
[h
t
‑1,w
t
]+b
f
)i
t
=σ(W
i
·
[h
t
‑1,w
t
]+b
i
)o
t
=σ(W
o
·
[h
t
‑1,w
t
]+b
o
)
h
t
=O
t

tanh(c
t
)其中f
t
,i<...

【专利技术属性】
技术研发人员:陈海龙崔欣莹安锐
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1