方面级情感分析方法技术

技术编号:28872598 阅读:310 留言:0更新日期:2021-06-15 23:05
本发明专利技术涉及自然语言处理的情感分析领域,具体地说,涉及细粒度情感分析方法。其方法步骤如下:首先使用BERT对文本进行向量化处理;一方面将向量化后的文本送入两个堆叠的双向LSTM进行方面词‑情感倾向联合抽取,得到方面词‑情感倾向序列,记为A;另一方面将向量化后的文本送入图卷积网络(GCN)和双向LSTM进行意见词抽取,在这一阶段,通过目标引导模块传递信息,得到意见词序列,记为B;将上一阶段得到的序列A和序列B通过枚举方式形成候选对,通过基于距离的目标词和情感词匹配算法针对每个候选对是否有效进行预测。

【技术实现步骤摘要】
方面级情感分析方法
本专利技术涉及自然与然处理的情感分析领域,具体地说,涉及细粒度情感分析方法。
技术介绍
社交媒体和电商平台的快速发展,越来越多的网络用户愿意在网络发表自己对某件事情或商品的评价,这些看法中包含用户的情感信息。因此,对各大平台上带有情感倾向的言论和评价进行分析,可以带来多方面的效益,例如消费者可以根据购物网站的商品评价详细了解商品信息;企业可以通过监控社交媒体的用户评价修改营销信息、品牌定位、产品开发;股民根据评价选择是否买入股票。所以,情感分析是一种具有很大实际应用价值的文本分类技术,被广泛的应用于产品反馈、舆情监控、股市预测和电影票房预测等方面。对含有情感色彩的文本进行情感极性判断具有巨大的商业价值和社会价值,这些实际价值推动了文本情感分析的研究。文本情感分析(SentimentAnalysis,SA)指利用自然语言处理和文本挖掘技术对带有情感色彩的主观性文本进行分析、处理和抽取的过程。通过对用户评论文本中的情感信息进行分析,可以抽取用户的情感态度。SA一般分为三个层次,文档级(document-level)、句子级(sentence-level)和方面级(aspect-level)。其中,文档级主要是对整个文本进行文本特征抽取并获得其情感倾向,句子级主要针对某个单独的句子分析其情感倾向,方面级则针对某一句子中不同的属性表达的不同的情感倾向。文档级和句子级的情感分析是较粗粒度的情感分析,情感分析的前提是假设整个文本或句子只表达了一种情感,即积极的或者消极的情感,这两类任务已经取得了非常好的效果。方面级情感分析(Aspect-basedSentimentAnalysis,ABSA)是细粒度情感分析,它直接关注的是句子中每个方面的情感倾向而不只是句子的结构,有助于更好的解决SA问题。方面级情感分析旨在捕捉用户生成的评论中对产品、电影、公司等实体的不同方面所表达的情感,在细粒度层次上解决各种情感分析任务,包括方面抽取(AspectExtraction,AE)、意见抽取(OpinionExtraction,OE)、方面情感分类(AspectSentimentClassification,ASC)等。方面(Aspect)是一个实体的属性。例如:“Thewaiterisfriendlywhilethepizzaisverybad”中,AE抽取的是“waiter”和“pizza”,ASC将它们分为积极情感和消极情感,OE抽取的是“friendly”和“bad”。三者一起完成细粒度情感分析,即所讨论的方面、对它的情感倾向,以及该情感倾向产生的原因。
技术实现思路
基于方面的情感分析(ABSA)是指在细粒度级别处理各种情感分析任务,包括但不限于方面提取、方面情感分类和意见提取。本专利技术将三个字任务结合在一起,实现对文本讨论的方面、对它的情感倾向,以及该情感倾向产生的原因。为实现上述目的,本专利技术提供方面级情感分析方法,其方法步骤如下:输入层:输入层通过Bert模型将文本进行向量化,tokenembedding层将每一个词转换成向量形式,segmentembeddings层对句子个数进行编码,positionEmbeddings为每个字向量提供位置表示,Bert模型Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中上下文的词特征;方面词-情感倾向联合抽取:方面词-情感倾向联合抽取模型通过两个堆叠的双向LSTM网络,下层网络进行边界标签预测,上层网络进行方面词-情感倾向联合标注;意见词抽取:通过GCN和双向LSTM堆叠的网络中进行意见词抽取,GCN的邻接矩阵是基于句子的依赖程度构建的,通过GCN可获取方面词与意见词之间的依赖关系,将GCN的输出送入双向LSTM网络中进行上下文信息编码,得到意见词标注信息,意见词标签为AOPT={B,I,E,S,O};方面词和意见词匹配:将方面词和意见词通过基于距离的方法得到有效配对,把通过方面词-情感倾向联合抽取模型得到的方面词序列和通过意见词抽取得到的意见词序列通过枚举的方式两两配对形成方面-意见对,用方面词和意见词的距离信息编码他们的位置关系,的都位置索引,将位置索引与H1结合作为双向LSTM网络的输入,通过双向LSTM网络学习距离信息,并将其发送到softmax层进行二进制分类,得到有效配对。本实施例中的,所述输入层的输入序列为:x=x1,x2...xT}。作为本技术方案的改进,所述输入层向量化步骤如下:Bert层将输入序列打包为:H0=e1,e2...eT}et(t∈[1,T])是输入序列xt对应的tokenembeddings、segmentembeddings和positionembeddings的组合;通过12个Transformer层的Bert计算输入标记的相应上下文表示:第L(L∈[1,12])层的表示为:计算Hl:Hl=Transformerl(Hl-1)作为本技术方案的改进,所述方面词-情感倾向抽取步骤如下:通过Bert得到长度为T的输入序列下层BiLSTMΓ进行边界标签预测,公式为:上层BiLSTMS进行方面词-情感倾向联合标注,公式为:分别用softmax进行预测,对下层BiLSTMΓ分类得到边界信息:对上层BiLSTMS分类,得到方面词-情感倾向联合标注的标签:通过过渡矩阵Wtr辅助BiLSTMΓ进行边界预测:Bi是与边界标签i(i∈AΓ)一致的有效统一标签集;为防止近似均匀分布,提出了一个通过置信度ct计算比例分数αt的方法:为防止由多词组成的方面词出现不同的情感倾向,引入门控机制,在预测当前词的情感倾向标签时,用前一状态的特征和这一状态的特征共同进行预测:Wg和bg是该门控机制的可学习参数,⊙表示元素乘法,σ是sigmoid函数。作为本技术方案的改进,所述意见词抽取步骤如下:通过Bert得到长度为T的输入序列意见词标签为:AOPT={B,I,E,S,O}.GCN学习单词之间的依赖关系,GCN的邻接矩阵是基于句子的依赖程度构建的,即WaCN∈R|T|×|T|,其中T为句子长度,如果第i个单词与第j个单词之间存在依赖关系,则与均为1,否则为0;BiLSTMoPT网络中进行上下文信息编码,输出记为oOPT。对BiLSTMoPT分类得到意见词标签:作为本技术方案的改进,所述方面词和意见词匹配步骤如下:经过方面词-情感倾向抽取和意见词抽取后分别得到两个序列,记为:{A1,A2,...,Am},{B1,B2,...,Bn}表示有n个方面词-情感倾向和m个意见词;枚举方式形成候选对:{(A1,B1),(A2,B1),...,(Am,Bn)};计算方面词与意见词之间的距离来编码本文档来自技高网
...

【技术保护点】
1.方面级情感分析方法,其方法步骤如下:/n输入层:通过Bert模型将文本进行向量化,使神经网络能够识别;/n方面词-情感倾向联合抽取:将向量化的文本送入两个堆叠的双向LSTM网络中进行方面词-情感词联合抽取;/n意见词抽取:将向量化的文本送入GCN和双向LSTM堆叠的网络中进行意见词抽取;/n方面词和意见词匹配:将上两部得到的序列通过枚举方式得到方面意见对,通过距离匹配算法进行有效性预测。/n

【技术特征摘要】
1.方面级情感分析方法,其方法步骤如下:
输入层:通过Bert模型将文本进行向量化,使神经网络能够识别;
方面词-情感倾向联合抽取:将向量化的文本送入两个堆叠的双向LSTM网络中进行方面词-情感词联合抽取;
意见词抽取:将向量化的文本送入GCN和双向LSTM堆叠的网络中进行意见词抽取;
方面词和意见词匹配:将上两部得到的序列通过枚举方式得到方面意见对,通过距离匹配算法进行有效性预测。


2.根据权利要求1所述的细粒度情感分析方法,其特征在于:所述输入层中使用Bert模型进行文本向量化,输入序列为:
x={x1,x2,...,xT}。


3.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述Bert模型有三个embedding对文本进行预处理:
tokenembedding层是要将各个词转换成固定维度的向量;
segmentembeddings层对句子个数进行编码,若输入的文本只包含一个句子,那么segmentembeddings均为1,如果输入的句子包含两个句子,则第一个句子标记为1,第二个句子标记为2;
positionEmbeddings是一个大小为(512,768)的lookup表,表的第一行是代表第一个序列的第一个位置,第二行代表序列的第二个位置,以此类推;
将x对应的tokenembeddings、segmentembeddings和positionembeddings组合成Transformer层的输入序列H0={e1,e...

【专利技术属性】
技术研发人员:王璐马宏伟
申请(专利权)人:山东建筑大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1