当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于深度学习的面向方面级情感分析的句法依赖方法技术

技术编号:27835819 阅读:32 留言:0更新日期:2021-03-30 12:00
本发明专利技术公开了一种基于深度学习的面向方面级情感分析的句法依赖方法,提高了方面级情感分析的准确性。该方法包括以下步骤:S1,将输入的句子利用预训练好的词向量进行表示;S2,将S1得到的词向量输入到卷积层以提取序列的局部特征;S3,将卷积过后的特征向量输入到BiLSTM层,通过两个方向的LSTM单元获取上下文中的语义信息;S4,将S3得到的语义信息输入到临近加权卷积层以捕获n

【技术实现步骤摘要】
一种基于深度学习的面向方面级情感分析的句法依赖方法


[0001]本专利技术涉及自然语言处理的情感分析
,尤其涉及一种基于深度学习的面向方面级情感分析的句法依赖方法。

技术介绍

[0002]情感分析(Sentiment analysis)是文本挖掘领域的一个热门话题,它是对文本中的观点、情感和主观性的计算。情感分析有三个层次的粒度,即文档级(document

level)、句子级(sentence

level)和方面级(aspect

level)。当一个文档或一个句子涉及多个情感表达时,前两个层面的情感分析将无法准确提取文本内部的深层情感。而方面级情感分类(也称为基于方面的情感分类)是一个细粒度的情感分类任务,旨在识别特定上下文中某个方面的极性,即评论或评论。例如,对于“价格足够合理,服务很差”这句话,“价格”和“服务”这两个词是方面的,对“价格”和“服务”的态度分别是积极的和消极的。
[0003]与情感分析中的其他粒度级别不同,句子中不同方面的情感极性需要在方面级情感分析中确定,它不仅依赖于上下文信息,还依赖于不同方面的情感信息。此外,一句话中不同的具体方面可能会有完全相反的情感极性,因此分析针对个别方面的具体情感极性可以更有效地帮助人们理解用户的情感表达,从而引起该领域越来越多的关注。早期在方面级情感分析方面的工作主要基于从统计学的角度手动提取定义的特征,并采用机器学习,如支持向量机(support vector machine)、条件随机场(conditional random field)等。特征质量在这些模型的性能中具有很大的权重,并且特征工程是劳动密集型的。
[0004]近年来,越来越多采用深度学习的技术被整合到自然语言处理任务中。与传统的机器学习相比,它们在情感分类方面取得了更好的效果。Zhou提出了一种结合CNN和BiLSTM模型的中文产品评论分析方法。Xue报道了一种更精确和更有效的模型,它将卷积神经网络与选通机制相结合。Dong利用自适应递归神经网络对推特上的目标依赖情感进行分类。Vo应用了情感词汇,以及分布式单词表示和神经池来提高情感分析的能力。Ma构建了一个神经架构,用于有针对性的基于方面的情感分析,同时能够融入重要的常识。在方面级情感分类方面,这些传统神经模型的性能比传统机器学习更为突出。然而,它们只能以一种隐含的方式捕捉上下文信息,导致显式的不完善,这就排除了某一方面的一些重要的上下文线索。
[0005]目前,随着注意机制和记忆网络的成熟。越来越多的此类方法被用于自然语言处理,并取得了良好的效果,如机器翻译,与以前的方法相比,性能有所提高。在这个领域中,表示的生成可以受到目标和上下文的相互影响。例如,Wang将基于注意力的网络应用于方面级情感分类。Long提出了一种基于BiLSTM的多头注意机制,并将其集成到文本情感分析的交叉模型中。Lin建立了一个全新的方面级情感分类框架,它是一个基于语义依赖和上下文矩的深度掩蔽记忆网络。Jiang为同样的任务设计了一个基于方面的LSTM

CNN注意力模型。Ma从网络和注意机制出发,发展了一个交互注意网络(IAN)模型。然而,在这些研究中,体与其语境词之间的句法关系通常被忽略,这可能会阻碍基于体的语境表征的有效性。此外,情感极性方面通常取决于一个关键短语。Zhang提出了一种加权邻近度的卷积网络,以
提供句法感知的上下文的方面特定表示。然而,该网络仅考虑文本序列中的长距离相关性,因此捕捉局部特征的效果并不理想。
[0006]在一个复合句中,有可能每个方面都只与其相邻的语境有关。在识别其情感极性之前,需要估计每个方面的影响范围。因此,需要更好的语言表示模型来生成更准确的语义表达。Word2Vec和GLoVe已被广泛用于将单词转换为实数值向量。但是,这两个有一个问题。事实上,单词在不同的语境中可能有不同的含义,而目标句子在不同的语言中,语境中的向量表示是相同的。ELMo是对它们的一个改进,但它并不完美,因为它在语言模型中应用了LSTM。LSTM有两个主要问题。第一个问题是它是单向的,这意味着它是通过有序推理来工作的。甚至BiLSTM双向模型也只是一个简单的亏本加法,导致它无法考虑另一个方向的数据。另一个问题是,它是一个序列模型。换句话说,在其处理过程中,一个步骤在前一个步骤完成之前不能进行,导致并行计算能力差.
[0007]上述问题都会影响方面级情感分析的准确性。

技术实现思路

[0008]本专利技术所要解决的技术问题是:提出一种基于深度学习的面向方面级情感分析的句法依赖方法,提高方面级情感分析的准确性,包括以下步骤:
[0009]S1,将输入的句子利用预训练好的词向量进行表示;
[0010]S2,将S1得到的词向量输入到卷积层以提取序列的局部特征;
[0011]S3,将卷积过后的特征向量输入到BiLSTM层,通过两个方向的LSTM单元获取上下文中的语义信息;
[0012]S4,将S3得到的语义信息输入到临近加权卷积层以捕获n

gram信息;
[0013]S5,将临近加权卷积后得到的n

gram信息输入到池化层进行最大池化操作,提取重要特征;
[0014]S6,将最大池化操作得到的输出通过softmax分类层进行分类,得到最终结果。
[0015]其中步骤S1所述预训练词向量是指通过Google提出来的BERT预训练模型,它能够捕捉明显的单词差异,例如多义性。此外,这些上下文敏感的单词嵌入还检索其他形式的信息,这可能有助于产生更准确的特征表示和提高模型性能。
[0016]进一步地,步骤S1中考虑输入数据用x表示,H是用BERT处理x后生成的嵌入,公式如下:
[0017]H=BERT(x)
[0018]进一步地,步骤S2中卷积层用于提取序列中的局部特征;其输出为:
[0019][0020]式中表示卷积,权重矩阵的符号由w
m
∈R
k
×
d
表示,对应于滤波器F
m
;b
m
代表偏差,X
i:i+k
‑1表示滑动矩阵窗口,包括输入矩阵中i到i+k

1行;f是一个非线性激活函数,这里本专利选择了RELU。符号代表从滤波器F
m
生成的特征图,为y
m
的第i个元素。
[0021]进一步地,步骤S3所述BiLSTM层采用双向LSTM网络,分别由前向和后向神经网络组成,分别负责记忆过去和未来的信息,促进文本分析,其中一个标准的LSTM单元通常包含三个门和一个单元存储器状态,即忘记门、输入门、输出门和存储单元。W
i
,U
i
∈R
d
×
2d
是对应
于输入门i
t
的加权矩阵;W
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的面向方面级情感分析的句法依赖方法,其特征在于:包括以下步骤:S1,将输入的句子利用预训练好的词向量进行表示;S2,将S1得到的词向量输入到卷积层以提取序列的局部特征;S3,将卷积过后的特征向量输入到BiLSTM层,通过两个方向的LSTM单元获取上下文中的语义信息;S4,将S3得到的语义信息输入到临近加权卷积层以捕获n

gram信息;S5,将临近加权卷积后得到的n

gram信息输入到池化层进行最大池化操作,提取重要特征;S6,将最大池化操作得到的输出通过softmax分类层进行分类,得到最终结果。2.根据权利要求1所述的基于深度学习的面向方面级情感分析的句法依赖方法,其特征在于:其中步骤S1所述预训练词向量是指通过Google提出来的BERT预训练模型,它能够捕捉明显的单词差异,例如多义性。此外,这些上下文敏感的单词嵌入还检索其他形式的信息,这可能有助于产生更准确的特征表示和提高模型性能。输入数据用x表示,H是用BERT处理x后生成的嵌入,公式如下:H=BERT(x) 。3.根据权利要求1所述的基于深度学习的面向方面级情感分析的句法依赖方法,其特征在于:步骤S2中卷积层用于提取序列中的局部特征;其输出为:式中表示卷积,权重矩阵的符号由w
m
∈R
k
×
d
表示,对应于滤波器F
m
;b
m
代表偏差,X
i:i+k
‑1表示滑动矩阵窗口,包括输入矩阵中i到i+k

1行;f是一个非线性激活函数,这里本专利选择了RELU。符号代表从滤波器F
m
生成的特征图,为y
m
的第i个元素。4.根据权利要求1所述的基于深度学习的面向方面级情感分析的句法依赖方法,其特征在于:步骤S3所述BiLSTM层采用双向LSTM网络,分别由前向和后向神经网络组成,分别负责记忆过去和未来的信息,促进文本分析,其中一个标准的LSTM单元通常包含三个门和一个单元存储器状态,即忘记门、输入门、输出门和存储单元。W
i
,U
i
∈R
d
×
2d
是对应于输入门i
t
的加权矩阵;W
f
,U
f
∈R
d
×
2d
是对应于忘记门f
t
的加权矩阵;W
o
,U
o
∈R
d
×
2d
是对应于输出门o
t
的加权矩阵。b
...

【专利技术属性】
技术研发人员:陈思溢杜鑫浩陈小龙
申请(专利权)人:湘潭大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1