一种基于词块的观点目标抽取和目标情感分类联合方法及系统技术方案

技术编号:22817128 阅读:25 留言:0更新日期:2019-12-14 13:09
本发明专利技术提出一种基于词块的观点目标抽取和目标情感分类联合方法及系统,具体为:对于每个连续词块,设计词块级别的特征以此来充分利用多个词之间的整体信息;计算每个词块的情感信息而非单独计算每一个词的情感信息,这样保证词块里多个词的情感倾向的一致性。本发明专利技术一是通过有效利用多个词整体信息,二是通过为多个词组成的词块计算一个情感信息表示来避免情感不一致的问题,来提升抽取和分类的准确率,具有良好的实用性。

A joint method and system of view target extraction and target emotion classification based on lexical chunks

【技术实现步骤摘要】
一种基于词块的观点目标抽取和目标情感分类联合方法及系统
:本专利技术涉及深度学习与自然语言处理技术,具体涉及一种基于词块的观点目标抽取和目标情感分类联合方法及系统。
技术介绍
:近年来,互联网信息技术高速发展,新闻、社交等网站每天有海量的新数据产生出来,这些数据中包含着各种各样表达观点或者情感的信息。对这些数据进行观点、立场、态度等的分析,可以帮助人们更好的做出判断以及决策,比如:对商品的评论进行分析,可以了解用户对商品的满意度,从而制定更加合理的营销策略。但是由于互联网上的数据量以几何倍数增长,如何从这些海量的信息中查找出对自己有用的数据并进行正确的分析,已经成为了一项非常用意义的研究课题。情感分析技术就是一项针对用户产生的信息进行情感倾向进行分析研究的技术。根据情感分析的粒度主要分为:篇章级情感分析,句子级情感分析以及目标级别情感分析。其中针对目标的情感分析主要包括两个子任务,一个是找出句子中的观点目标,另外一个是判断对该目标的情感倾向。传统的基于目标的情感分析分别研究其中一个子任务,但是在实际应用中往往不仅仅需要完成其中一个子任务,而是既需要抽取出其中的观点目标同时又要对目标的情感倾向进行分类。一种比较直观的做法是把两个子任务以流水线的方式串联起来执行,但是这样无法利用两个子任务之间的相互联系。为了充分利用这两个子任务之间的联系,一些基于词级别序列标注的联合方法被提了出来。很多观点目标是由多个词组成的而非单个词,比如“鼠标左键”是由“鼠标”和“左键”两个词构成,所以基于词级别序列标注的联合方法处理这类观点目标的时候仍然存在一些局限性,一是很难利用观点目标级别的特征,二是预测出的同一个观点目标的多个词之间的情感倾向有可能存在不一致,比如对于“鼠标左键”这个情感目标,可能对“鼠标”这个词给出的标签情感分类是正向的,但是“左键”这个词给出的情感分类是负向的。
技术实现思路
:针对上述技术问题,本专利技术提出一种基于词块的观点目标抽取和目标情感分类联合方法及系统,来利用情感目标级别的特征同时避免情感分类不一致的问题。为了解决上述技术问题,本专利技术的技术方案如下:一种基于词块的观点目标抽取和目标情感分类联合方法,包括如下步骤:把需要进行观点目标抽取和目标情感分类的句子进行处理,得到每个句子中所有的连续词块;把得到的句子信息以及词块信息输入到观点目标抽取和目标情感分类的联合模型中,对词块进行分类预测;根据词块的类别获取句子中的观点目标及其对应的情感类别;其中,所述观点目标抽取和目标情感分类的联合模型的构建方法,包括:(1)将训练数据中句子以及其中标注的观点目标以及目标情感转化为对应的词块以及词块对应的类别;同时通过大规模的非标注语料,训练得到具有语义信息的词向量;(2)将训练数据的句子中的每个词映射成对应的词向量,输入基于词块的目标抽取和目标情感分类联合神经网络模型,并通过反向传播算法进行训练;(3)将需进行观点目标抽取和目标情感分类的句子输入训练完成的联合预测模型,预测出每个词块对应的类别,根据词块的类别得到句子中的观点目标以及对该目标的情感类别。进一步地,所述联合模型的构建方法步骤(1)具体方法包括:(1-1)设定词块的最大长度值,枚举训练数据输入句子中不超过所设定的最大长度的所有连续文本词块;(1-2)根据标注语料中句子标注的观点目标以及目标情感分类,为所有的词块标记类别;(1-3)利用传统的词向量以及基于上下文的词向量来表示输入句子中的每一个词:通过word2vec在大规模的非标注语料上训练获取到传统词向量,把句子输入到预训练好的ELMo(EmbeddingsfromLanguageModels)模型中得到基于上下文的词向量。更进一步地,步骤(1-1)中最大长度值N的设定范围为1≤N≤L,其中,N为整数,L为输入句子的最大长度,优选的长度为4。更进一步地,步骤(1-2)中定义词块的类别集合为4个类别{TPOS,TNEG,TNEU,O},这4个类别代表的含义分别为:TPOS表示词块是观点目标且其情感倾向是积极的,TNEG表示词块是观点目标且其情感倾向是消极的,TNEU表示词块是观点目标且其情感倾向是中性的,O表示词块不是情感目标。进一步地,所述联合模型的构建方法步骤(2)中所述模型输入为:包含T个词的句子X={w1,w2,…,wT},其中wt表示输入句子中的第t个词,模型的目标是预测词块集合中每个词块的类别Y={(i,j,l)|1≤i≤j≤T;j-i+1≤L;l∈C},其中i,j表示词块在句子中的起始位置和终止位置,l表示词块对应的标签,C表示类别集合。进一步地,所述联合模型的构建方法步骤(2)中所述模型训练过程包括:2-1)将上述输入句子传统的词向量以及基于上下文的词向量进行拼接,作为下一层的输入;2-2)在上下文表示层,把句子中每个词对应的词向量作为输入,采用多层双向长短记忆神经网络(stackedBi-LSTM)学习句子中每个词的上下文表示向量;2-3)每个词块采用两种词块级别的信息来对其进行表示:一种是词块的边界信息,一种是词块的整体信息;2-4)基于词块的注意力机制用来计算输入句子中和每个词块相关联的上下文中的情感信息;2-5)在输出层把每个词块的向量表示以及基于词块注意力机制的上下文情感信息表示拼接在一起,用于预测词块的类别;2-6)选取交叉熵为模型训练的损失函数;2-7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到词块分类模型。更进一步地,步骤2-2)中所述的上下文表示为:其中,表示第m层t个隐藏单元的状态,第M层的隐藏层状态作为每个词的上下文表示。更进一步地,步骤2-3)中所述边界信息用边界词对应的stackBiLSTM层的输出来进行表示;所述整体信息采用词块中所有词的上下文信息和进行表示;任意一个词块(i,j)词块表示为:其中,是多层双向长短记忆神经网络的输出,这两类信息的表示向量拼接起来来作为词块的表示。更进一步地,步骤2-4)中由于任务不仅需要识别出词块是否是观点目标,还需要判断出这个词块对应的情感信息,而这些情感信息往往是在上下文中,所以采用基于连续词块的注意力机制来计算文本中和目标相关的情感信息。直观上来说,离一个连续词块越近的词,对这个连续的词块的影响可能越大,采用基于距离权重的上下文信息来表示这种影响,对于离词块越近的词设置的权重越大,离其越远的词设置的权重越小。步骤2-4)具体方法包括:2-4-1)每个词和词块(i,j)的距离,来定义这个词的权重w′t:其中lt表示第t个词到词块(i,j)的距离;对于词块中的词,设置距离lt的值为0;对于词块左边的词,距离lt为到词块最左边词的距离;对于词块右边的词,距离lt为到词块最右边词的距离;2-4-2)根据上面获取的权重值,模型计算每个词块(i,j)基于位本文档来自技高网
...

【技术保护点】
1.一种基于词块的观点目标抽取和目标情感分类联合方法,包括如下步骤:/n把需要进行观点目标抽取和目标情感分类的句子进行处理,得到每个句子中所有的连续词块;/n把得到的句子信息以及词块信息输入到观点目标抽取和目标情感分类的联合模型中,对词块进行分类预测;/n根据词块的类别获取句子中的观点目标及其对应的情感类别;/n其中,所述观点目标抽取和目标情感分类的联合模型的构建方法,包括:/n(1)将训练数据中句子以及其中标注的观点目标以及目标情感转化为对应的词块以及词块对应的类别;同时通过非标注语料,训练得到具有语义信息的词向量;/n(2)将训练数据的句子中的每个词映射成对应的词向量,输入基于词块的目标抽取和目标情感分类联合神经网络模型,并通过反向传播算法进行训练。/n

【技术特征摘要】
1.一种基于词块的观点目标抽取和目标情感分类联合方法,包括如下步骤:
把需要进行观点目标抽取和目标情感分类的句子进行处理,得到每个句子中所有的连续词块;
把得到的句子信息以及词块信息输入到观点目标抽取和目标情感分类的联合模型中,对词块进行分类预测;
根据词块的类别获取句子中的观点目标及其对应的情感类别;
其中,所述观点目标抽取和目标情感分类的联合模型的构建方法,包括:
(1)将训练数据中句子以及其中标注的观点目标以及目标情感转化为对应的词块以及词块对应的类别;同时通过非标注语料,训练得到具有语义信息的词向量;
(2)将训练数据的句子中的每个词映射成对应的词向量,输入基于词块的目标抽取和目标情感分类联合神经网络模型,并通过反向传播算法进行训练。


2.如权利要求1所述一种基于词块的观点目标抽取和目标情感分类联合方法,其特征在于,联合模型的构建方法步骤(1)具体方法包括:
(1-1)设定词块的最大长度值,枚举训练数据输入句子中不超过所设定的最大长度的所有连续文本词块;所述最大长度值N的设定范围为1≤N≤L,其中,N为整数,L为输入句子的最大长度;
(1-2)定义词块的类别集合为4个类别{TPOS,TNEG,TNEU,O},其中,TPOS表示词块是观点目标且其情感倾向是积极的,TNEG表示词块是观点目标且其情感倾向是消极的,TNEU表示词块是观点目标且其情感倾向是中性的,O表示词块不是情感目标;根据标注语料中句子标注的观点目标以及目标情感分类,为所有的词块标记类别;
(1-3)利用传统的词向量以及基于上下文的词向量来表示输入句子中的每一个词:通过word2vec在非标注语料上训练获取到传统词向量,把句子输入到预训练好的ELMo模型中得到基于上下文的词向量。


3.如权利要求1所述一种基于词块的观点目标抽取和目标情感分类联合方法,其特征在于,所述联合模型的构建方法步骤(2)中所述模型输入为:
包含T个词的句子X=*w1,w2,…,wT+,其中wt表示输入句子中的第t个词,模型的目标是预测词块集合中每个词块的类别Y=*(i,j,l)|1≤i≤j≤T;j-i+1≤L;l∈C+,其中i,j表示词块在句子中的起始位置和终止位置,l表示词块对应的标签,C表示类别集合。


4.如权利要求3所述一种基于词块的观点目标抽取和目标情感分类联合方法,其特征在于,所述联合模型的构建方法步骤(2)中所述模型训练过程包括:
2-1)将上述输入句子传统的词向量以及基于上下文的词向量进行拼接,作为下一层的输入;
2-2)在上下文表示层,把句子中每个词对应的词向量作为输入,采用多层双向长短记忆神经网络学习句子中每个词的上下文表示向量;
2-3)每个词块采用两种词块级别的信息来对其进行表示:一种是词块的边界信息,一种是词块的整体信息;
2-4)基于词块的注意力机制用来计算输入句子中和每个词块相关联的上下文中的情感信息;
2-5)在输出层把每个词块的向量表示以及基于词块注意力机制的上下文情感信息表示拼接在一起,用于预测词块的类别;
2-6)选取交叉熵为模型训练的损失函数;
2-7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到词块分类模型。


5.如权利要求4所述一种基于词块的观点目标抽取和目标情感分类联合方法,其特征在于,步骤2-2)中所述的上下文表示为:<...

【专利技术属性】
技术研发人员:虎嵩林周艳朱福庆韩冀中
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1