一种基于词块的观点目标抽取和目标情感分类联合方法及系统技术方案

技术编号：22817128 阅读：25 留言：0更新日期：2019-12-14 13:09

本发明专利技术提出一种基于词块的观点目标抽取和目标情感分类联合方法及系统，具体为：对于每个连续词块，设计词块级别的特征以此来充分利用多个词之间的整体信息；计算每个词块的情感信息而非单独计算每一个词的情感信息，这样保证词块里多个词的情感倾向的一致性。本发明专利技术一是通过有效利用多个词整体信息，二是通过为多个词组成的词块计算一个情感信息表示来避免情感不一致的问题，来提升抽取和分类的准确率，具有良好的实用性。

A joint method and system of view target extraction and target emotion classification based on lexical chunks

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词块的观点目标抽取和目标情感分类联合方法及系统
：本专利技术涉及深度学习与自然语言处理技术，具体涉及一种基于词块的观点目标抽取和目标情感分类联合方法及系统。
技术介绍
：近年来，互联网信息技术高速发展，新闻、社交等网站每天有海量的新数据产生出来，这些数据中包含着各种各样表达观点或者情感的信息。对这些数据进行观点、立场、态度等的分析，可以帮助人们更好的做出判断以及决策，比如：对商品的评论进行分析，可以了解用户对商品的满意度，从而制定更加合理的营销策略。但是由于互联网上的数据量以几何倍数增长，如何从这些海量的信息中查找出对自己有用的数据并进行正确的分析，已经成为了一项非常用意义的研究课题。情感分析技术就是一项针对用户产生的信息进行情感倾向进行分析研究的技术。根据情感分析的粒度主要分为：篇章级情感分析，句子级情感分析以及目标级别情感分析。其中针对目标的情感分析主要包括两个子任务，一个是找出句子中的观点目标，另外一个是判断对该目标的情感倾向。传统的基于目标的情感分析分别研究其中一个子任务，但是在实际应用中往往不仅仅需要完成其中一个子任务，而是既需要抽取出其中的观点目标同时又要对目标的情感倾向进行分类。一种比较直观的做法是把两个子任务以流水线的方式串联起来执行，但是这样无法利用两个子任务之间的相互联系。为了充分利用这两个子任务之间的联系，一些基于词级别序列标注的联合方法被提了出来。很多观点目标是由多个词组成的而非单个词,比如“鼠标左键”是由“鼠标”和“左键”两个词构成，所以基于词级别序列标注的联合方法处...

【技术保护点】
1.一种基于词块的观点目标抽取和目标情感分类联合方法，包括如下步骤：/n把需要进行观点目标抽取和目标情感分类的句子进行处理，得到每个句子中所有的连续词块；/n把得到的句子信息以及词块信息输入到观点目标抽取和目标情感分类的联合模型中，对词块进行分类预测；/n根据词块的类别获取句子中的观点目标及其对应的情感类别；/n其中，所述观点目标抽取和目标情感分类的联合模型的构建方法，包括：/n(1)将训练数据中句子以及其中标注的观点目标以及目标情感转化为对应的词块以及词块对应的类别；同时通过非标注语料，训练得到具有语义信息的词向量；/n(2)将训练数据的句子中的每个词映射成对应的词向量，输入基于词块的目标抽取和目标情感分类联合神经网络模型，并通过反向传播算法进行训练。/n

【技术特征摘要】
1.一种基于词块的观点目标抽取和目标情感分类联合方法，包括如下步骤：
把需要进行观点目标抽取和目标情感分类的句子进行处理，得到每个句子中所有的连续词块；
把得到的句子信息以及词块信息输入到观点目标抽取和目标情感分类的联合模型中，对词块进行分类预测；
根据词块的类别获取句子中的观点目标及其对应的情感类别；
其中，所述观点目标抽取和目标情感分类的联合模型的构建方法，包括：
(1)将训练数据中句子以及其中标注的观点目标以及目标情感转化为对应的词块以及词块对应的类别；同时通过非标注语料，训练得到具有语义信息的词向量；
(2)将训练数据的句子中的每个词映射成对应的词向量，输入基于词块的目标抽取和目标情感分类联合神经网络模型，并通过反向传播算法进行训练。

2.如权利要求1所述一种基于词块的观点目标抽取和目标情感分类联合方法，其特征在于，联合模型的构建方法步骤(1)具体方法包括：
(1-1)设定词块的最大长度值，枚举训练数据输入句子中不超过所设定的最大长度的所有连续文本词块；所述最大长度值N的设定范围为1≤N≤L，其中，N为整数，L为输入句子的最大长度；
(1-2)定义词块的类别集合为4个类别{TPOS,TNEG,TNEU,O}，其中，TPOS表示词块是观点目标且其情感倾向是积极的，TNEG表示词块是观点目标且其情感倾向是消极的，TNEU表示词块是观点目标且其情感倾向是中性的，O表示词块不是情感目标；根据标注语料中句子标注的观点目标以及目标情感分类，为所有的词块标记类别；
(1-3)利用传统的词向量以及基于上下文的词向量来表示输入句子中的每一个词：通过word2vec在非标注语料上训练获取到传统词向量，把句子输入到预训练好的ELMo模型中得到基于上下文的词向量。

3.如权利要求1所述一种基于词块的观点目标抽取和目标情感分类联合方法，其特征在于，所述联合模型的构建方法步骤(2)中所述模型输入为：
包含T个词的句子X＝*w1,w2,…,wT+,其中wt表示输入句子中的第t个词，模型的目标是预测词块集合中每个词块的类别Y＝*(i,j,l)|1≤i≤j≤T；j-i+1≤L；l∈C+，其中i，j表示词块在句子中的起始位置和终止位置，l表示词块对应的标签，C表示类别集合。

4.如权利要求3所述一种基于词块的观点目标抽取和目标情感分类联合方法，其特征在于，所述联合模型的构建方法步骤(2)中所述模型训练过程包括：
2-1)将上述输入句子传统的词向量以及基于上下文的词向量进行拼接，作为下一层的输入；
2-2)在上下文表示层，把句子中每个词对应的词向量作为输入，采用多层双向长短记忆神经网络学习句子中每个词的上下文表示向量；
2-3)每个词块采用两种词块级别的信息来对其进行表示：一种是词块的边界信息，一种是词块的整体信息；
2-4)基于词块的注意力机制用来计算输入句子中和每个词块相关联的上下文中的情感信息；
2-5)在输出层把每个词块的向量表示以及基于词块注意力机制的上下文情感信息表示拼接在一起，用于预测词块的类别；
2-6)选取交叉熵为模型训练的损失函数；
2-7)通过反向传播算法训练模型，更新模型中所有的参数，最终得到词块分类模型。

5.如权利要求4所述一种基于词块的观点目标抽取和目标情感分类联合方法，其特征在于，步骤2-2)中所述的上下文表示为：<...

【专利技术属性】
技术研发人员：虎嵩林，周艳，朱福庆，韩冀中，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人