【技术实现步骤摘要】
一种基于时序
‑
热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法
:
[0001]本专利技术涉及数据半监督分类的技术,尤其涉及一种基于时序
‑
热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法。
技术介绍
:
[0002]时间序列(Time series)是指一个系统的某个指标在各个时间点上的观测数据按照时间的先后顺序所排列而成的序列数据,这种广泛存在的时间序列数据往往蕴含着潜在的变化规律。时间序列分析就是探索包含在时间序列数据中的所有信息,观察、估算和研究这样一组真实数据在长期变动过程中所存在的统计规律性。随着近来年机器学习、神经网络的高速发展和广泛使用,其与时间序列数据挖掘相结合的研究也成为热点。由于深度学习算法具有自学习、自适应以及非线性逼近的能力,可以克服传统时间序列分析方法的缺点,在时间序列预测研究上取得突出的效果。
[0003]注意力机制(Attention Mechanism)在近两年来,广泛的应用于自然语言处理等不同类型的深度学习任务中。当一个人在看一样物品的时候,目光一定是集中于在某一地方的,随着目光的移动,关注的地方也会随之变化,这就是人类视觉的“注意力”。显然,深度学习中的注意力机制借鉴了人类视觉这一特点,它的主要目的就是从输入的信息当中,找到与当前任务目标联系更加紧密、更加关键的信息。并且,在注意力领域中,与单个的注意力机制相比,多头注意力机制拥有更加广阔的关注视野:使用多个相互独立的注意力机制使网络能够关注到更多的与分类相关的令牌。多头注 ...
【技术保护点】
【技术特征摘要】
1.一种基于时序
‑
热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于该方法包括以下步骤:步骤1数据输入阶段步骤2预处理阶段步骤3使用BiLSTM情感分析阶段步骤4时序
‑
热度双注意力层阶段。2.根据权利要求1所述的一种基于时序
‑
热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于,所述步骤1中的数据输入阶段,具体步骤为:步骤1_1句子中的每个单词通过独热编码作为一个索引嵌入:x
t
∈R
|V|
步骤1_2将索引嵌入输入到训练前层。步骤1_3热度特征标准化。对数据的热度特征进行计算H=(posi+nega+score)*type*fans*user*num其中,score为情感得分,type为用户类别,fans为粉丝数量,num为单位时间数量即所发布的微博数量,能够更好的反映舆情的发展趋势,user为单位时间内参与人数。步骤1_4划分源域和目标域的训练集、验证集、测试集,比例为7:2:1。训练集用来训练模型,验证集用来调整模型参数,测试集用来测试模型的最终性能。3.根据权利要求1所述的一种基于时序
‑
热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于,所述步骤2中的预处理阶段,具体步骤为:步骤2_1将单词嵌入查找表中:步骤2_2在动态部分,我们使用Elmo层对每个单词的上下文信息进行动态编码:其中和分别表示通过语言模型LM进行优化的前、后BiLSTM编码器的隐藏层输出。步骤2_3使用Bert对每个单词的上下文信息进行动态编码,提高精度:W
t
=Concat(head1,..
·
,head
h
)W0head
i
=Attention(QW
iQ
KW
iK
,VW
iV
)其中d
k
是注意力机制的维度,q,k,v是隐藏状态。4.根据权利要求1所述的一种基于时序
‑
热度双注意力机制融合双向长短时记忆网络的舆情情感分析方法,其特征在于,所述步骤3中的使用BiLSTM情感分析阶段,具体步骤为:步骤3_1将预训练层得到的分布式向量从前往后输入到一个独立的LSTM单元中:f
t
=σ(W
f
·
[h
t
‑1,w
t
]+b
f
)i
t
=σ(W
i
·
[h
t
‑1,w
t
]+b
i
)o
t
=σ(W
o
·
[h
t
‑1,w
t
]+b
o
)
h
t
=O
t
⊙
tanh(c
t
)其中f
t
,i<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。