一种热点新闻情感分析方法技术

技术编号:38321951 阅读:14 留言:0更新日期:2023-07-29 09:04
本发明专利技术涉及一种热点新闻情感分析方法,获取目标微博文本信息,使用解耦化LR特征提取方法改进情感分析模型,融合基于位置编码的信息增益,得到混合深度学习情感分析模型,根据混合深度学习情感分析模型对目标微博文本信息进行情感分类,能够对微博文本信息进行准确、可靠地情感分类,得到精准分类结果,对情感分类后得到的分类结果进行可视化,数据可视化能够清晰地呈现出新闻发现、情感爆发、情感平稳和新闻事件消亡四个生命周期事件,便于及时发现新闻,感知情感变化,从而对热点新闻事件进行及时观察和监测,为新闻事件处置、方针决策提供依据。提供依据。提供依据。

【技术实现步骤摘要】
一种热点新闻情感分析方法


[0001]本专利技术涉及一种热点新闻情感分析方法。

技术介绍

[0002]近年来,网络逐渐成为新闻制作和情感传播的主要途径。当发生某一热点事件话题后,用户通过特定的网络平台发布个人主观言论和倾向性观点。当微博用户基于个人主观情感对新闻事件大量发表自己看法后,逐步形成具有较强社会影响力的网络新闻。用户发布的博文信息所蕴含的情感对新闻趋势产生深远影响。因此,新闻情感分析与监测日益被重视。
[0003]研究微博热点新闻情感分析与监测能够及时准确地采集和分析公众情感趋势,对当前发生的网络新闻特征进行有效判断和识别,为作出合理的处理措施给出分析依据,对监管机构进行监测和制定应急方案至关重要。
[0004]针对热点新闻情感分析问题,基于深度学习的情感分析技术是一种主流的分类预测方法。在信息的多元化发展背景下,自然语言包含复杂语义,传统情感分析模型难以有效分析文本特征。微博热点博文信息不同于常规评论文本,其含有流行元素和更复杂的情感信息,单一的深度学习模型难以有效学习到上下文特征。根据深度学习模型的特点对文本数据进行不同层面的特征提取是获取深层情感特征的有效方法,而多种深度学习模型融合后表现不佳。

技术实现思路

[0005]有鉴于此,为了解决上述技术问题,本专利技术提供一种热点新闻情感分析方法。
[0006]本专利技术采用以下技术方案:
[0007]一种热点新闻情感分析方法,包括:
[0008]获取目标微博文本信息;
[0009]使用解耦化LR特征提取方法改进情感分析模型,融合基于位置编码的信息增益,得到混合深度学习情感分析模型,根据所述混合深度学习情感分析模型对所述目标微博文本信息进行情感分类;
[0010]对情感分类后得到的分类结果进行可视化。
[0011]在一个实施例中,所述获取目标微博文本信息,包括:
[0012]获取初始微博文本信息;
[0013]对所述初始微博文本信息进行预处理,得到所述目标微博文本信息。
[0014]在一个实施例中,所述初始微博文本信息采用预设的爬虫算法获取得到。
[0015]在一个实施例中,所述对所述初始微博文本信息进行预处理,得到所述目标微博文本信息,包括:
[0016]对所述初始微博文本信息进行数据清洗,得到中间微博文本信息;
[0017]对所述中间微博文本信息进行分词处理,得到所述目标微博文本信息。
[0018]在一个实施例中,所述混合深度学习情感分析模型包括:预处理层、词嵌入层、特征提取层、卷积层和输出层。
[0019]在一个实施例中,所述使用解耦化LR特征提取方法改进情感分析模型,融合基于位置编码的信息增益,得到混合深度学习情感分析模型,包括:
[0020](1)评论文本表示:
[0021]获取数据索引词典wtoi={w1:i1,w2:i2,...,w
n
,i
n
}和itow={i1:w1,i2:w2,...,i
n
,w
n
},则所述目标微博文本信息表示为:
[0022][0023]其中,w表示某个词,i是词w的索引词典表示;m是当前输入句子的长度,即S_in这句话总共分成了m个词;max_len表示句子的处理长度;i
l
表示当前输入句子不足max_len时,句子S_in的最后一个词;i
[pad]表示填充位,用于填足max_len长度;i
max_len
表示第max_len个词的索引表示;
[0024](2)对词进行关系化向量表示:
[0025]由词序列构成的句子S通过(n,d
E
)维的词关系表示嵌入矩阵W
E
,计算得出词嵌入向量
[0026][0027]其中,d
e
表示词向量维度;
[0028](3)获得PE位置编码:
[0029]使用有界的周期性函数,有以下固定位置编码方法:
[0030]PE=sin(ωt),t∈[0,max_len)
[0031][0032]其中,d
P
表示位置嵌入维度;k为预设数;
[0033]对频率ω进行以下形式变换,得:
[0034][0035][0036]其中,e为自然常数;
[0037]在不同维度层面同时使用正弦位置编码与余弦位置编码,进而得出以下位置编码:
[0038][0039][0040](4)融合位置编码,完成信息增益:
[0041]对关系化向量表示融合位置编码,得:
[0042][0043]E
S2V
=[v1,v2,...,v
n
]包含了原语句S=[w1,w2,...,w
m
]中w
t
的所有词嵌入,v
t
也包含了词间关系编码和位置编码信息;
[0044](5)解耦化上下文情感特征提取:
[0045]在经词嵌入融合词义信息和位置信息后,提取有关上下文的语义特征,则在某一时刻t,两个LSTM输出向量计算方式如下:
[0046][0047][0048]其中,x
t
表示LSTM网络在t时刻的输入;
[0049]得到对于LSTM输出的注意力权重分数α
Lt
和α
Rt

[0050][0051][0052][0053][0054]其中,W1和W2为权重矩阵,b1和b2为偏移量,u
Lt
和u
Rt
为目标注意力权重,T为矩阵转置符号;
[0055]得到两个方向经注意力机制加权的特征V
L
和V
R

[0056][0057][0058]然后将注意权重计算的特征V
L
和V
R
拼接,得到语境特征提取层的输出特征V:
[0059][0060](6)获取局部特征:
[0061]得到局部特征点信息:
[0062][0063]其中,W
c
是卷积网络的权重矩阵;k表示某个输入通道;F
in
表示当前通道的特征,即V内嵌入向量的第k个值;b
c
表示偏移量;
[0064](7)取得全局情感特征F
all

[0065]计算出每个通道的卷积权重F
out
后,将权重矩阵的每个窗口对输入特征进行移动卷积计算,从而计算出当前窗口的特征信息,所有卷积计算完成后,拼接形成最终的全局情感特征F
all

[0066](8)输出情感分类结果:
[0067]经过全连接和softmax方法得到最终所属的分类类别:
[0068]P=softmax(W
P
·
F
a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种热点新闻情感分析方法,其特征在于,包括:获取目标微博文本信息;使用解耦化LR特征提取方法改进情感分析模型,融合基于位置编码的信息增益,得到混合深度学习情感分析模型,根据所述混合深度学习情感分析模型对所述目标微博文本信息进行情感分类;对情感分类后得到的分类结果进行可视化。2.根据权利要求1所述的热点新闻情感分析方法,其特征在于,所述获取目标微博文本信息,包括:获取初始微博文本信息;对所述初始微博文本信息进行预处理,得到所述目标微博文本信息。3.根据权利要求2所述的热点新闻情感分析方法,其特征在于,所述初始微博文本信息采用预设的爬虫算法获取得到。4.根据权利要求2所述的热点新闻情感分析方法,其特征在于,所述对所述初始微博文本信息进行预处理,得到所述目标微博文本信息,包括:对所述初始微博文本信息进行数据清洗,得到中间微博文本信息;对所述中间微博文本信息进行分词处理,得到所述目标微博文本信息。5.根据权利要求1所述的热点新闻情感分析方法,其特征在于,所述混合深度学习情感分析模型包括:预处理层、词嵌入层、特征提取层、卷积层和输出层。6.根据权利要求1所述的热点新闻情感分析方法,其特征在于,所述使用解耦化LR特征提取方法改进情感分析模型,融合基于位置编码的信息增益,得到混合深度学习情感分析模型,包括:(1)评论文本表示:获取数据索引词典wtoi={w1:i1,w2:i2,...,w
n
,i
n
}和itow={i1:w1,i2:w2,...,i
n
,w
n
},则所述目标微博文本信息表示为:其中,w表示某个词,i是词w的索引词典表示;m是当前输入句子的长度,即S_in这句话总共分成了m个词;max_len表示句子的处理长度;i
l
表示当前输入句子不足max_len时,句子S_in的最后一个词;i
[pad]
表示填充位,用于填足max_len长度;i
max_len
表示第max_len个词的索引表示;(2)对词进行关系化向量表示:由词序列构成的句子S通过(n,d
E
)维的词关系表示嵌入矩阵W
E
,计算得出词嵌入向量,计算得出词嵌入向量其中,d
e
表示词向量维度;(3)获得PE位置编码:使用有界的周期性函数,有以下固定位置编码方法:
PE=sin(ωt),t∈[0,max_len)其中,d
P
表示位置嵌入维度;k为预设数;对频率ω进行以下形式变换...

【专利技术属性】
技术研发人员:朱颢东马紫帅杨文贺郭雅洁李春磊李红婵
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1