一种基于跨度的细粒度情感分析方法技术

技术编号:26689807 阅读:31 留言:0更新日期:2020-12-12 02:39
本发明专利技术提供一种基于跨度的细粒度情感分析方法,涉及情感分析技术领域。本发明专利技术通过选择情感分析的数据集,建立基于方面的情感分析模型,通过损失函数和训练数据集来训练基于方面的情感分析模型,将待进行情感分析的测试数据集通过训练好的基于方面的情感分析模型,实现文本的情感分析。本发明专利技术提出的网络模型来提取方面和对应的情感极性,该模型为情感分析任务构建一种简单有效的提取句子方面及相应情感极性的联合模型。该模型使用BERT作为词嵌入,然后使用循环控制单元来提取每个子任务的表示,以及使用交互层来考虑它们之间的关系,最后进行方面项提取和情感分析。

【技术实现步骤摘要】
一种基于跨度的细粒度情感分析方法
本专利技术涉及情感分析
,尤其涉及一种基于跨度的细粒度情感分析方法。
技术介绍
随着互联网时代的发展,以网络平台为依托的社交成为人们生活中不可或缺的一部分。用户不再满足于单方面的获取信息,而是踊跃的创造信息。越来越多的用户热衷于在网络上发表自己的情感、观点和态度,例如在电影网站上分享某个电影的观影感受、在社交网络上发表自己对某件事情的看法、在购物网站上发表对于某件商品的评价等等。而针对大量的评论数据,人们很难从中快速抽取出对自己有效的信息。所以,情感分析(Sentimentanalysis)应运而生。情感分析又称为意见挖掘、主观性分析等,就是将主观态度挖掘出来的一个过程。由于在网络上产生的大量数据都是以文本的形式存在的,所以基于文本的情感分析是至关重要的。情感分析已经应用于舆情监测、意见搜索、商业决策、信息预测、情绪管理、股票市场等各个领域中,并且很多互联网企业也推出自主研发的情感分析工具。目前,百度在其开放平台推出了情感分析应用。此应用能够对中文的文本判断情感极性并且给出相应的置信度,这为口碑分析、舆情分析等提供了一定的技术支持。高效的情感分析可以为用户提供更加精准的分析结果,为用户和带来极大的便利。所以,情感分析不仅为生活带来极大的便利,也具有较高的商业价值。情感分析可以分为三个层次粒度:文档级别(document-level)、句子级别(sentence-level)和方面级别(aspect-level)。文档级别的情感分析是为含有一个意见的文档确定一个整体的情感极性。句子级别的情感分析是为一个句子确定一个情感极性。与文档级别和句子级别的情感分类不同的是,方面级别的情感分析既要考虑句子的内容,又考虑句子的目标信息,因为情感总是有目标的。方面级别的情感分析是一种细粒度的任务,包含方面项提取(ATE)和方面情感分类(ASC)这两项子任务。基于方面的情感分析的目标是提取句子的各个方面并且判断每个方面的情感极性。输入的句子可以是商品评论,社交网络评论等带有方面的句子。例如在句子“食物出奇的好吃,餐厅的装饰也很不错”中,“食物”和“装饰”就是句子的提到的两个方面。在这个句子中它们的情感极性都是积极的。通常情况下,研究人员是分别对方面情感分析的两项基本的子任务进行研究。第一个子任务是意见方面项提取,它的目的是检测文本中提到的方面。研究人员在意见方面项提取的子任务上已经做了很多工作。第二个子任务是方面情感分类,它可以预测给定的意见方面的情感极性。近年来,该子任务也得到了广泛关注。通常情况下,研究人员对这些子任务进行单独的研究,但它们在实际应用中都是系统的有机组成部分,方面情感分类的实现是基于方面项提取中获取的方面项。因此,这两个子任务的分离将限制实际应用。近年来,一些研究将方面项提取和方面情感分类对待为序列标记的任务来解决。这些研究为完成ABSA任务设计了一个统一的标记方案:{B,I,E,S}-{+,-,0}和标签O。{BIES}表示序列标签,{+,-,0}表示情感标签。也有一些研究使用{BIO}等更简单的序列标签。根据定义的标记,完整的方面情感分析任务转换为序列标记问题,并在相同的网络体系结构下使用管道模型、联合模型或折叠模型来解决。并且一个标记按顺序分配给输入语句中的每个单词。然而,基于序列标记的方面提取和情感分类的方法存在一些不足。在使用BIO标签进行抽取问题回答任务时,由于标签的组合性,模型必须考虑一个巨大的搜索空间,因此效率较低。当方面由多个单词组成时,现有的方法分别预测单词的标签,这样无法利用全局信息,导致方面项提取错误。并且分别预测单词标签,可能导致不同单词学习到的对某一方面的情感信息不同,无法保证方面的情感一致性。
技术实现思路
针对上述现有技术的不足,本专利技术提供一种基于跨度的细粒度情感分析方法,联合解决方面提取和方面情感分析这两项子任务,对文本实现方面级别的情感分析。为解决上述技术问题,本专利技术所采取的技术方案是一种基于跨度的细粒度情感分析方法,包括以下步骤:步骤1、选择待进行情感分析的数据集,给定一个输入的句子s={w1,w2,...,wn},其中wn为词,n为句子的长度;步骤2、对待分析数据集建立基于跨度的方面情感分析模型S-AESC;所述基于跨度的方面情感分析模型S-AESC包括嵌入层,双GRU层,交互层,跨度提取和注意力机制分类;所述嵌入层使用BERT作为嵌入层,将句子s={w1,w2,...,wn}的开头和结尾分别连接[CLS]和[SEP]标记,其中句子的长度为n,使用词表将连接之后的句子转化成向量{e1,...ei,...,en},其中ei是结合了标记嵌入(tokenembedding)、位置嵌入(positionembedding)和段嵌入(segmentembedding)的向量,i∈[1,n];在层数为L层的Transformer中表示在第l层的计算如公式(1)所示:Xl=Transformer(Xl-1),l∈[1,L](1)其中,Xl为在第l层的Transformer获得的表示,为在第l层的Transformer获得的表示中的第n项;所述的双GRU层接收嵌入层的输出,通过更新门zi和重置门ri来生成表示,更新门zi控制前一时刻的状态信息被带入到当前状态中的程度,重置门ri控制忽略前一时刻的状态信息的程度,如公式(2)-(5)所示:其中,σ为激活函数,tanh为双曲正切函数,和hi分别表示新的门和隐藏表示,其中向量hi的维度为d,Wr、Wz和分别为重置门、更新门和新的门的参数矩阵;所述交互层计算方面提取和方面情感分类之间的信息交互;首先计算一个方面提取的复合张量其中为实数域的K维向量,即复合张量βap的维度为K,通过计算来编码ha和hp之间的关联程度,复合张量计算公式如下:βap=tanh((ha)TGahp)(6)其中,ha和hp分别为双GRU层的方面提取和方面情感分类的输出隐藏表示,是一个三维的张量,其中为三维张量的维度分别为K,d和d,a和p分别为方面提取和方面情感分类的索引;获得复合张量βap之后,计算方面提取的注意力分数Sap,注意力分数越高证明从第p个词捕捉到的情感与第a个方面之间有较高的相关性,计算公式如下:其中,va为计算注意力分数Sap的可训练的权重向量;然后,所有的ha聚集成矩阵hA,Sap聚集成矩阵SA,通过计算来增强原始的方面提取特征,公式如下:hA=hA+softmax(SA)hP(8)所述交互层利用方面提取和方面情感分类之间的相互作用,计算方面情感分类的复合张量通过计算来编码hp与ha之间的关联程度;获得复合张量之后,计算方面情感分类的注意力分数Spa;最后通过计算来增强原始的方面情感分类特征;如公式(9)-(11)所示:βpa=tanh((hp)TGaha)(9)hP=hP+softm本文档来自技高网
...

【技术保护点】
1.一种基于跨度的细粒度情感分析方法,其特征在于,包括以下步骤:/n步骤1、选择待进行情感分析的数据集,给定一个输入的句子s={w

【技术特征摘要】
1.一种基于跨度的细粒度情感分析方法,其特征在于,包括以下步骤:
步骤1、选择待进行情感分析的数据集,给定一个输入的句子s={w1,w2,...,wn},其中wn为词,n为句子的长度;
步骤2、对待分析数据集建立基于跨度的方面情感分析模型S-AESC;
步骤3、通过联合训练损失函数L对模型进行优化;
步骤4、将待进行情感分析的数据集通过训练好的基于跨度的方面情感分析模型,提取出每个句子中的所有方面{a1,...,at},并预测出它们的情感极性,其中方面的数量为t,实现文本的情感分析。


2.根据权利要求1所述的一种基于跨度的细粒度情感分析方法,其特征在于,步骤2中所述基于跨度的方面情感分析模型S-AESC包括嵌入层,双GRU层,交互层,跨度提取和注意力机制分类;
所述嵌入层使用BERT作为嵌入层,将句子s={w1,w2,...,wn}的开头和结尾分别连接[CLS]和[SEP]标记,其中句子的长度为n,使用词表将连接之后的句子转化成向量{e1,...ei,...,en},其中ei是结合了标记嵌入(tokenembedding)、位置嵌入(positionembedding)和段嵌入(segmentembedding)的向量,i∈[1,n];在层数为L层的Transformer中表示在第l层的计算如公式(1)所示:
Xl=Transformer(Xl-1),l∈[1,L](1)
其中,Xl为在第l层的Transformer获得的表示,为在第l层的Transformer获得的表示中的第n项;
所述的双GRU层接收嵌入层的输出,通过更新门zi和重置门ri来生成表示,更新门zi控制前一时刻的状态信息被带入到当前状态中的程度,重置门ri控制忽略前一时刻的状态信息的程度,如公式(2)-(5)所示:












其中,σ为激活函数,tanh为双曲正切函数,和hi分别表示新的门和隐藏表示,其中向量hi的维度为d,Wr、Wz和分别为重置门、更新门和新的门的参数矩阵;
所述交互层计算方面提取和方面情感分类之间的信息交互;
首先计算一个方面提取的复合张量其中为实数域的K维向量,即复合张量βap的维度为K,通过计算来编码ha和hp之间的关联程度,复合张量计算公式如下:
βap=tanh((ha)TGahp)(6)
其中,ha和hp分别为双GRU层的方面提取和方面情感分类的输出隐藏表示,是一个三维的张量,其中为三维张量的维度分别为K,d和d,a和p分别为方面提取和方面情感分类的索引;
获得复合张量βap之后,计算方面提取的注意力分数Sap,注意力分数越高证明从第p个词捕捉到的情感与第a个方面之间有较高的相关性,计算公式如下:



其中,va为计算注意力分数Sap的可训练的权重向量;
然后,所有的ha聚集成矩阵hA,Sap聚集成矩阵SA,通过计算来增强原始的方面提取特征,公式如下:
hA=hA+softmax(SA)hP(8)
所述交互层利用方面提取和方面情感分类之间的相互作用,计算方面情感分类的复合张量通过计算来编码hp与ha之间的关联程度;获得复合张量之后,计算方面情感分类的注意力分数Spa;最后通过计算来增强原始的方面情感分类特征;如公式(9)-(11)所示:<...

【专利技术属性】
技术研发人员:吕艳霞魏方娜郑莹
申请(专利权)人:东北大学秦皇岛分校
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1