一种基于跨度的细粒度情感分析方法技术

技术编号：26689807 阅读：38 留言：0更新日期：2020-12-12 02:39

本发明专利技术提供一种基于跨度的细粒度情感分析方法，涉及情感分析技术领域。本发明专利技术通过选择情感分析的数据集，建立基于方面的情感分析模型，通过损失函数和训练数据集来训练基于方面的情感分析模型，将待进行情感分析的测试数据集通过训练好的基于方面的情感分析模型，实现文本的情感分析。本发明专利技术提出的网络模型来提取方面和对应的情感极性，该模型为情感分析任务构建一种简单有效的提取句子方面及相应情感极性的联合模型。该模型使用BERT作为词嵌入，然后使用循环控制单元来提取每个子任务的表示，以及使用交互层来考虑它们之间的关系，最后进行方面项提取和情感分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨度的细粒度情感分析方法
本专利技术涉及情感分析
，尤其涉及一种基于跨度的细粒度情感分析方法。
技术介绍
随着互联网时代的发展，以网络平台为依托的社交成为人们生活中不可或缺的一部分。用户不再满足于单方面的获取信息，而是踊跃的创造信息。越来越多的用户热衷于在网络上发表自己的情感、观点和态度，例如在电影网站上分享某个电影的观影感受、在社交网络上发表自己对某件事情的看法、在购物网站上发表对于某件商品的评价等等。而针对大量的评论数据，人们很难从中快速抽取出对自己有效的信息。所以，情感分析(Sentimentanalysis)应运而生。情感分析又称为意见挖掘、主观性分析等，就是将主观态度挖掘出来的一个过程。由于在网络上产生的大量数据都是以文本的形式存在的，所以基于文本的情感分析是至关重要的。情感分析已经应用于舆情监测、意见搜索、商业决策、信息预测、情绪管理、股票市场等各个领域中，并且很多互联网企业也推出自主研发的情感分析工具。目前，百度在其开放平台推出了情感分析应用。此应用能够对中文的文本判断情感极性并且给出相应...

【技术保护点】
1.一种基于跨度的细粒度情感分析方法，其特征在于，包括以下步骤：/n步骤1、选择待进行情感分析的数据集，给定一个输入的句子s＝{w

【技术特征摘要】
1.一种基于跨度的细粒度情感分析方法，其特征在于，包括以下步骤：
步骤1、选择待进行情感分析的数据集，给定一个输入的句子s＝{w1,w2,...,wn}，其中wn为词，n为句子的长度；
步骤2、对待分析数据集建立基于跨度的方面情感分析模型S-AESC；
步骤3、通过联合训练损失函数L对模型进行优化；
步骤4、将待进行情感分析的数据集通过训练好的基于跨度的方面情感分析模型，提取出每个句子中的所有方面{a1,...,at}，并预测出它们的情感极性，其中方面的数量为t，实现文本的情感分析。

2.根据权利要求1所述的一种基于跨度的细粒度情感分析方法，其特征在于，步骤2中所述基于跨度的方面情感分析模型S-AESC包括嵌入层，双GRU层，交互层，跨度提取和注意力机制分类；
所述嵌入层使用BERT作为嵌入层，将句子s＝{w1,w2,...,wn}的开头和结尾分别连接[CLS]和[SEP]标记，其中句子的长度为n，使用词表将连接之后的句子转化成向量{e1,...ei,...,en}，其中ei是结合了标记嵌入(tokenembedding)、位置嵌入(positionembedding)和段嵌入(segmentembedding)的向量，i∈[1,n]；在层数为L层的Transformer中表示在第l层的计算如公式(1)所示：
Xl＝Transformer(Xl-1),l∈[1,L](1)
其中，Xl为在第l层的Transformer获得的表示，为在第l层的Transformer获得的表示中的第n项；
所述的双GRU层接收嵌入层的输出，通过更新门zi和重置门ri来生成表示，更新门zi控制前一时刻的状态信息被带入到当前状态中的程度，重置门ri控制忽略前一时刻的状态信息的程度，如公式(2)-(5)所示：

其中，σ为激活函数，tanh为双曲正切函数，和hi分别表示新的门和隐藏表示，其中向量hi的维度为d，Wr、Wz和分别为重置门、更新门和新的门的参数矩阵；
所述交互层计算方面提取和方面情感分类之间的信息交互；
首先计算一个方面提取的复合张量其中为实数域的K维向量，即复合张量βap的维度为K，通过计算来编码ha和hp之间的关联程度，复合张量计算公式如下：
βap＝tanh((ha)TGahp)(6)
其中，ha和hp分别为双GRU层的方面提取和方面情感分类的输出隐藏表示，是一个三维的张量，其中为三维张量的维度分别为K，d和d，a和p分别为方面提取和方面情感分类的索引；
获得复合张量βap之后，计算方面提取的注意力分数Sap，注意力分数越高证明从第p个词捕捉到的情感与第a个方面之间有较高的相关性，计算公式如下：

其中，va为计算注意力分数Sap的可训练的权重向量；
然后，所有的ha聚集成矩阵hA，Sap聚集成矩阵SA，通过计算来增强原始的方面提取特征，公式如下：
hA＝hA+softmax(SA)hP(8)
所述交互层利用方面提取和方面情感分类之间的相互作用，计算方面情感分类的复合张量通过计算来编码hp与ha之间的关联程度；获得复合张量之后，计算方面情感分类的注意力分数Spa；最后通过计算来增强原始的方面情感分类特征；如公式(9)-(11)所示：<...

【专利技术属性】
技术研发人员：吕艳霞，魏方娜，郑莹，
申请(专利权)人：东北大学秦皇岛分校，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人