当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度表示学习的实体情感分析方法技术

技术编号:27006817 阅读:16 留言:0更新日期:2021-01-08 17:10
本发明专利技术公开了一种基于深度表示学习的实体情感分析方法,依序采用ELMo模型、BERT模型以及ALBERT模型进行预训练,得到基于这三个模型的预训练词向量;经过步骤2产生的预训练词向量作为BiLSTM层的输入,将最终迭代结束后的隐层作为本层的输出;利用attention层计算句子s中每个词与其他所有词注意力得分,来判断该词与其他词语的关系权重;依据得到attention层的结果将对应隐层输入分类器中;并计算情感类别的概率,并将分类结果通过输出层输出最终结果。与现有技术相比,本发明专利技术提高了基于实体属性的情感识别的准确率;让模型在中文数据集上的表现得到了提升;强化了模型的泛化能力。

【技术实现步骤摘要】
一种基于深度表示学习的实体情感分析方法
本方法涉及自然语言处理和机器学习领域,特别是涉及一种基于实体属性提取识别的情感分析方法。
技术介绍
情感分析是自然语言处理领域较为基础但又十分必要的一项任务,是对用户参与的、对于诸如人物、事件、产品等有价值的评论信息中带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。在传统文本情感分析技术中,单纯地将句子中情感词加以区分来判断句子的情感极性,例如出现“高兴”等正向词就会认为这句话是正向情感,出现“讨厌”等负向词会认为带有负面情感,其他则认为是中立状态。现阶段情感分析的研究主要集中在以下三个方面:(1)篇章级。篇章级情感分析认为每一篇文档都表达了作者对某一个特定对象的情感倾向,从整体上对文本的情感倾向进行分析。主要应用在用户评论,新闻和微博等文本分析领域。(2)句子级。篇单独的文档中可能包含作者对同一事物的多种观点,为了更细粒度的挖掘不同观点,就需要进行句子级的情感分析。句子级别的情感分析,一般的做法是先将句子分为主观句和客观句,然后再对主观句的情感倾向做出判断。(3)词级。词级的情感分析,就是判断出该词是褒义词、贬义词或是中性词。词级情感分析中,情感倾向的判别方法主要有基于语料库的方法和基于词典的方法两种。而随着文本量扩大和句子规模增加,一段话中可能出现多个实体对应的多个不同情感,而现实生活中往往需要针对某一特定实体进行分析,这时就需要排除其他实体评价的干扰。由此就提出了基于实体的情感分析来解决同一句话中出现多个实体的情况。例如“我买了一个新相机,它的画质很好,但续航很差”,这句话中针对实体“画质”是正向情感,而针对“续航”是负向情感,这个任务的主要目的就是针对不同的实体区分不同的情感极性。正因为有了深度学习的发展,与之相结合的基于深度学习的文本情感分析方法也随之增多,并且受到广泛关注。进一步而言,基于实体的情感分析等细颗粒度情感分析方法也在深度学习的加持下有了更广阔的发展。将情感词嵌入与情感分析相结合进行分析;通过长短期记忆网络(LSTM)对情感文本进行分类,实现了针对不同属性划分不用情感的任务;利用一种多特征融合策略,在深度学习模型实现多模态情感分析。这些研究成果都与情感分析以及基于实体的情感分析相关,并为其发展奠定基础。通过实体情感分析,可以解决实际应用中的很多问题。例如,电商平台通过后台对产品的评论内容进行收集汇总,之后采用深度学习算法结合的方式对商品好坏进行描述或对产品进行画像等后续工作,而这一切的基础就是对其商品进行实体情感分析。实际应用中,有可能针对一个产品的多个方面有着不同的评价,例如买家可能对照相机的画质比较满意,而对其续航不喜欢,这时候就需要利用实体情感分析的手段判断出画质属于正向情感,而续航属于负向情感,进而可以在商品展示页面针对这两个不同的属性进行满意度百分比统计或是针对性描述。因此实体情感分析具有很高的实际应用价值。现有基于实体属性的情感分析主要存在以下几点问题:1、单纯使用传统机器学习方法构建的模型不能满足对上下文语义的深度理解,尤其在中文这样的上下文关联度较强的文本中效果不尽人意;2、针对同一实体属性包含多个单词或汉字的情况下,多数模型采用将所有词向量化后取平均的方式得到词表达,并没有计算其内部的权重,这使得该属性用于后续过程中的词表示程度并不高;3、现有模型几乎很少考虑使用加载预训练的词向量模型的方法来提升词表示程度,尤其现在基于上下文的词表示所生成的预训练模型已经很普及的情况下;4、现有的模型基本都基于英文语句进行实体情感分析,很少有针对中文语料进行,并且中文语料缺乏统一的数据集,这也是难以统一的主要原因之一。
技术实现思路
基于现有技术,本专利技术提出了一种基于深度表示学习的实体情感分析方法,通过基于上下文的词表示作为预训练词向量的模型,使用BiLSTM+attention作为下游模型,同时使用人工标注的2万条中文手机评论语料作为数据集进行训练,从而实现专门针对中文的实体属性情感分析,旨在解决现有模型对中文实体属性情感分析过程中准确度不高的问题。本专利技术的一种基于深度表示学习的实体情感分析方法,具体包括以下流程:步骤1、判断句子的实体属性,将给定长度为n的句子s的输入序列表示为s={t1,t2,...,a1,a2,...,tn},每个句子由一系列的词语ti组成,将句子s中包括实体属性情感目标词表示为a1、a2,每个句子包含有一个或多个实体情感目标词;首先识别句子s中不同的实体情感词,所述实体情感词涵盖“外观”、“拍照”、“屏幕”、“待机时间”、“运行速度”这五个方面的实体属性,并根据所识别到的实体属性划分成不同句子,每个句子的输入序列均将实体属性前置,后再接输入的句子s,形成每一个实体属性对应的输入序列s={a|t1,t2,...,a,...,tn},其中a表示该句实体属性词,ti表示第i个词语;步骤2、在得到每一个实体属性对应的输入序列后,依序将输入序列s中的实体属性词和语料内容分别输入ELMo模型和BERT模型以及ALBERT模型,得到基于这三个模型的预训练词向量,并且分别利用三种预训练模型生成的词向量输入到下游模型中分别进行预测,生成基于三个预训练模型的不同预测结果;输入到下游模型之前,判断基于哪一种预训练模型生成的词嵌入;步骤3、经过步骤2产生的预训练词向量作为BiLSTM层的输入,其输出的隐层中包含一定的上下文语义信息,并将其作为本层的输出,以及作为下一层的输入向量;步骤4、利用attention层计算句子s中每个词与其他所有词注意力得分,来判断该词与其他词语的关系权重,首先将输入语料s中每个词ti都标识成为词向量wi,随后将s输入到Bi-LSTM中得到对应ht,假设LSTM有u个隐层,则ht∈R2u,并且用Ht∈Rn*2u表示所有的隐层状态h的集合,其公式表示为H={h1,h2,...,hn},此时自注意力机制的权重计算公式表示为a=softmax(Ws2tanh(Ws2tanh(Ws1HT)))其中,HTεR2u*n,最终向量a的形状为R1*n,最终找到针对某一特定属性词所对应的情感;步骤5、依据得到attention层的结果A作为Softmax层的输入,Softmax函数计算公式为y^=softmax(WsA+bs),其中,Ws∈Rc^d和bs∈Rc表示训练参数,c表示最终情感倾向分类的标签数;随后y^再经过一层全连接层,此时的y^变为1*c维度的向量,其每个对应维度都代表在相应情感标签上的可能概率;在训练阶段,y^与正确标签y进行对比,如相同则预测正确,否则预测错误,并记录误差进行反向传播,通过不断正向和反向传播来达到训练模型参数的目的,从而提高模型性能;在测试阶段,y^直接输出一个预测值来代表模型的预测结果。本专利技术提出的技术方法的有益效果包括:(1)提高了基于实体属性的情感识别的准确率,在中文数据集上可以达到91%的准确度,具有一定的代表性;(2)让模型在中文数据集上的表现得到了提升;(3)本文档来自技高网
...

【技术保护点】
1.一种基于深度表示学习的实体情感分析方法,其特征在于,该方法具体包括以下流程:/n步骤1、判断句子的实体属性,将给定长度n的句子s的输入序列表示为s={t

【技术特征摘要】
1.一种基于深度表示学习的实体情感分析方法,其特征在于,该方法具体包括以下流程:
步骤1、判断句子的实体属性,将给定长度n的句子s的输入序列表示为s={t1,t2,...,a1,a2,...,tn},每个句子由一系列的词语ti组成,将句子s中包括实体属性情感目标词表示为a1、a2,每个句子包含有一个或多个实体情感目标词;首先识别句子s中不同的实体情感词,所述实体情感词涵盖“外观”、“拍照”、“屏幕”、“待机时间”、“运行速度”这五个方面的实体属性,并根据所识别到的实体属性划分成不同句子,每个句子的输入序列均将实体属性前置,后再接输入的句子s,形成每一个实体属性对应的输入序列s={a|t1,t2,...,a,...,tn},其中a表示该句实体属性词,ti表示第i个词语;
步骤2、在得到每一个实体属性对应的输入序列后,依序将输入序列s中的实体属性词和语料内容分别输入ELMo模型和BERT模型以及ALBERT模型,得到基于这三个模型的预训练词向量,并且分别利用三种预训练模型生成的词向量输入到下游模型中分别进行预测,生成基于三个预训练模型的不同预测结果;输入到下游模型之前,判断基于哪一种预训练模型生成的词嵌入;
步骤3、经过步骤2产生的预训练词向量作为BiLSTM层的输入,其输出的隐层中包含一定的上下文语义信息...

【专利技术属性】
技术研发人员:张翔王赞贾勇哲马国宁
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1