一种基于多层次知识增强的方面级情感分析方法技术

技术编号:39424482 阅读:9 留言:0更新日期:2023-11-19 16:11
本发明专利技术公开了一种基于多层次知识增强的方面级情感分析方法,属于情感分析领域。包括以下步骤:S1:利用GloVe词嵌入工具得到文本词向量,使用Stanza构建句子的句法依赖树,并据此构建依赖图;S2:将词向量输入BiLSTM提取句子的上下文表征,并利用情感词典和敏感关系集合更新依赖图,实现对句子的情感和句法增强;S3:将增强后的依赖图输入GCN建模节点特征,获得特定方面表征;S4:使用概念图谱对方面词进行增强得到方面词表示,将其与特定方面表征融合后获得方面表征;S5:采用交互注意力协调优化方面表征与上下文表征,得到句子最终表示,从而判定方面情感倾向。本发明专利技术可以有效提高对特定方面情感分类的准确率,有助于商家精准定位产品或服务中存在的问题。位产品或服务中存在的问题。位产品或服务中存在的问题。

【技术实现步骤摘要】
一种基于多层次知识增强的方面级情感分析方法


[0001]本专利技术涉及情感分析
,具体是一种基于多层次知识增强的方面级情感分析方法。

技术介绍

[0002]近年来,信息技术的快速发展对人们日常的生活与工作带来了较大的影响。社交媒体和网购平台中产生了大量对人物、事件和商品等有价值的评论。对含有情感色彩的主观性文本进行分析、处理和归纳总结的过程就是情感分析任务。根据文本粒度不同,情感分析又可以分为粗粒度和细粒度的情感分析。粗粒度情感分析主要针对篇章级和句子级的文本给出对应的情感倾向,细粒度情感分析又称方面级情感分析,旨在给出句子中特定方面的情感倾向。例如“食物味道很好,服务有待改进。”在这句话中,针对“食物”消费者给出了肯定的评价,含有积极的情感;但对于“服务”,消费者的意见词为“有待改进”,则含有消极情感。方面级情感分析任务旨在给出评论语句中各个方面的情感倾向。
[0003]目前,针对方面级情感分析任务,大多数方法是基于深度学习展开的。由于评论文本自身较短,包含的语义信息不足,较多方法开始考虑在模型中引入外部知识来丰富文本语义信息,进而提高模型的情感分类准确率。但现有的方面级情感分析方法未能综合考虑情感知识、概念知识和单词之间的句法依赖类型对方面情感倾向判别准确性的影响,导致模型对语句的解析能力较差,造成情感分类准确率较低。
[0004]针对以上不足,本专利技术提出一种基于多层次知识增强的方面级情感分析方法。本专利技术的不同之处在于,通过将情感知识和句法知识嵌入评论语句实现对句子依赖图的增强,并通过图卷积网络学习节点特征。同时利用Microsoft概念图谱增强方面词的概念表征,实现对评论语句情感、句法和概念三个层次的知识增强,从而丰富文本的语义表征,提高对方面情感极性判别的准确率。

技术实现思路

[0005]本专利技术解决的技术问题在于针对现有技术的不足,提出一种基于多层次知识增强的方面级情感分析方法,通过对评论语句进行情感、句法和概念三个层次的知识增强,来丰富文本的深层次语义信息,进一步提高模型的语义解析能力以提升情感分析的准确率。
[0006]为了达到上述目的,本专利技术提供的一种基于多层次知识增强的方面级情感分析方法是按照以下步骤进行的:
[0007]步骤1:对数据预处理和分词后进行词嵌入得到文本词向量,并根据句子的句法依赖树构造依赖图,基本步骤如下:
[0008]步骤1.1:对数据清洗后,将给定的句子S分词为S={w1,w2,w3,,w
a1
,w
a2
,...,w
ak
,...,w
n
},句子包括长度为k的方面词序列a={w
a1
,w
a2
,...,w
ak
},且方面词序列a是句子S的一个子序列。其中w
i
代表上下文中第i个词语,w
ai
代表第i个方面词。
[0009]步骤1.2:采用GloVe词嵌入矩阵W∈R
de
×
V
将句子中的单词嵌入到指定维度的向量
中,得到句子的嵌入矩阵E={ew1,ew2,...,ew
a1
,ew
a2
,...,ew
ak
,...,ew
n
},其中de是词的维度,V是词汇总数,ew
i
∈R
de
是第i个上下文词的词嵌入表示,ew
ai
∈R
de
是第i个方面词的词嵌入表示。
[0010]步骤1.3:使用Stanza自然语言解析工具获得评论语句的句法依存树,并根据句法依存树构建邻接矩阵A∈R
n
×
n
,其中n表示评论语句中词语的个数。邻接矩阵构建规则如下:
[0011][0012]由于有向图仅可以单向通信,会丢失部分依赖信息,本文构建无向图以保留单词自身的节点信息,得到的邻接矩阵对角线上的值全为1,即A
i,j
=A
j,i
=1。
[0013]步骤2:提取句子的上下文表示,并对评论语句进行情感和句法增强,基本步骤如下:
[0014]BiLSTM可以同时捕获文本中正向和逆向的上下文信息,深层次提取文本两个方向的语义特征。
[0015]步骤2.1:将词嵌入后得到的句子初始化向量E送入BiLSTM,学习句子中单词的隐藏信息,获得句子的上下文隐藏表示:
[0016][0017][0018]将正向与逆向的句子隐藏表示拼接后,得到完整的上下文隐藏表示其中H
c
={h1,h2,h3,...,h
n
}∈R
n
×
2de
为句子的上下文表征。
[0019]步骤2.2:利用SenticNet情感词典构建情感强度邻接矩阵S
i,j
,进而增强上下文词和方面词之间的情感特征:
[0020][0021]其中,SenticNet(w
i
)∈[

1,1],表示单词w
i
在词典中对应的情感分数,强消极词情感分数接近

1,强积极词情感分数趋向于+1,当SenticNet(w
i
)=0时,表示单词w
i
的情感倾向为中性或者在词典中不存在。SenticNet中单词与其情感分数示例在表1中给出。表1 SenticNet中词语情感分数示例SenticNet中词语情感分数示例
[0022]同时,在ABSA任务中所有的词级依赖关系不应被视为同等重要,模型在判断方面
情感倾向时,应更加关注与方面词有关的意见词。
[0023]如图3给出的示例,方面词“service”与单词“poor”和“the”之间都含有依赖关系,但形容词“poor”是方面词的意见词,其依赖类型为

nsubj

,即“service”是“poor”的名词性主语,而方面词与“the”之间的依赖类型为

det

,即“the”仅是“service”的限定词。显然,相比于

det

而言,

nsubj

这种依赖类型对于判别方面的情感倾向应该是更重要的。
[0024]步骤2.3:本专利技术利用敏感关系集合SDR'来挖掘单词之间的依赖类型,构建句法增强邻接矩阵D
i,j
实现对评论语句的句法增强:
[0025][0026]其中,表示上下文词和方面词之间的依赖关系类型,当时,认为上下文词w
i
与方面词w
ai
之间是更重要的依赖类型,其中SDR'={'amod','neg','advmod','ccomp','compound','nmod','nummod本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层次知识增强的方面级情感分析方法,其特征在于包括以下几个步骤:步骤1:对数据进行预处理,将句子分词后利用GloVe词嵌入工具得到文本词向量,同时使用句法解析工具得到句子的句法依赖树,并以此来构建依赖图;步骤2:将文本词向量输入BiLSTM中提取句子的上下文表示,并利用SenticNet情感词典和敏感关系集合更新依赖图,从而实现对评论语句的情感和句法增强;步骤3:将增强后的依赖图输入图卷积网络建模节点特征,经过方面掩蔽后获得特定方面表征;步骤4:使用Microsoft概念图谱对方面词进行概念增强得到方面词表示,将其与特定方面表征融合后得到情感、句法和概念三个层次增强的方面表征;步骤5:采用交互注意力机制协调优化方面表征与上下文表征,得到最终的句子表示,将句子表示输入分类器以获得特定方面的情感倾向。2.根据权利要求1所述的一种基于多层次知识增强的方面级情感分析方法,其特征在于步骤1中包括:步骤1.1:对数据清洗后,将给定的句子S分词为S={w1,w2,w3,

,w
a1
,w
a2
,

,w
ak
,

,w
n
},句子包括长度为k的方面词序列a={w
a1
,w
a2
,

,w
ak
},且方面词序列a是句子S的一个子序列,其中w
i
代表上下文中第i个词语,w
ai
代表第i个方面词;步骤1.2:采用预训练GloVe词嵌入矩阵W∈R
de
×
V
将句子中的单词嵌入到指定维度的向量中,得到句子嵌入矩阵E={ew1,ew2,

,ew
a1
,ew
a2
,

,ew
ak
,

,ew
n
},其中de是词的维度,V是词汇的总数,ew
i
∈R
de
和ew
ai
∈R
de
分别是第i个上下文词和方面词的词嵌入表示;步骤1.3:使用Stanza自然语言解析工具获得句子的句法依存树,并根据句法依存树构建邻接矩阵A∈R
n
×
n
,n表示评论语句中词语的个数,邻接矩阵构建规则如下:3.根据权利要求1所述的一种基于多层次知识增强的方面级情感分析方法,其特征在于步骤2中包括:步骤2.1:将词嵌入后得到的句子初始化向量E送入BiLSTM学习句子的隐藏信息,获得句子的上下文隐藏表示:句子的上下文隐藏表示:将正向与逆向的句子隐藏表示拼接后得到完整的上下文句子隐藏表示其中H
c
={h1,h2,h3,

,h
n
}∈R
n
×
2de
;步骤2.2:利用SenticNet情感词典实现对评论语句的情感增强,得到情感强度邻接矩阵S
i,j

其中,SenticNet(w
i
)∈[

1,1],表示单词w
i
在词典中对应的情感分数,强消极词情感分数接近

1,强积极词情感分数趋向于+1,当SenticNet(w
i
)=0时,表示单词w
i
的情...

【专利技术属性】
技术研发人员:段文杰张顺香邓金科汪雨晴李嘉伟李书羽周若彤
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1