基于混合监督模型的文本情感分析方法技术

技术编号：22295634 阅读：119 留言：0更新日期：2019-10-15 04:46

本发明专利技术涉及自然语言分析技术，旨在提供一种基于混合监督模型的文本情感分析方法。包括：利用基于复合神经网络的定性情感分析模型进行强监督定性分析，通过将LSTM与CNN联合构造复合神经网络，并用于同时提取文本的序列特征与多维度特征，更准确地预测文本的情感极性可信度；基于句法分析树实现弱监督定量分析，通过对句子分词和构造句法分析树得到句子的层级修饰关系；然后根据情感词典进行递归向上的标注与计算，计算出各句的情感强度值；将前述可信度与情感强度相乘，得到文本的终判情感强度。本发明专利技术提出的混合监督模型，可以取现有技术两种计算方式的长处，能够给出兼具可信度与精细度的分析结果。

A Text Emotion Analysis Method Based on Hybrid Supervisory Model

全部详细技术资料下载

【技术实现步骤摘要】
基于混合监督模型的文本情感分析方法
本专利技术涉及自然语言分析技术，特别涉及基于混合监督模型的文本情感分析方法。
技术介绍
文本情感分析是指利用自然语言处理(NaturalLanguageProcessing,NLP)领域相关手段对目标文本中的主观情感因素进行研究分析的技术。通常而言，情感分析的目的是为了分析判断作者在给定文本中表达出的情感趋向或者情绪类别、观点意见等。现有的情感分析各类方案，依据训练集标签种类和分析结果的粒度，可以分为以下两类：定性情感分析对被分析文本给出定性的情感极性方向，以及相应的正极性概率值。其训练集的标签只有两个可能取值，分别代表正负两个极性标签。定量情感分析对被分析文本给出定量的情感强度值，而强度值的符号代表情感极性方向。训练集的标签文本的情感强度值，其可能取值有多个，每个可能取值代表不同的情感强度级别。定性情感分析的研究中，普遍涉及到了词的向量表示以及文本特征提取。自然语言处理领域中的一个重要研究领域就是如何将词汇转化为易于计算和处理的形式，由于词汇是字符串，无法对其进行直接加减等计算，因此需要将其转化为易于计算机处理计算的二进制结构化数据形式，2013年Google开源了其用于将词转化为向量表示的工具Word2Vec，能够使用无监督的语料将词汇转化为多维度实数向量，被人们广泛使用；而文本特征提取的任务是将词向量序列状态的文本转化为便于模型计算处理的数据结构，所提取出特征的质量好坏直接决定了模型最终的表现上限，目前常用的文本特征提取方式主要包括基于规则、基于统计特征、基于文本表示模型和基于神经网络四种。定量情感分析的研究中，目...

【技术保护点】
1.一种基于混合监督模型的文本情感分析方法，其特征在于，包括：(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析，通过将长短期记忆单元与卷积神经网络联合构造复合神经网络，并用于同时提取文本的序列特征与多维度特征，更准确地预测文本的情感极性可信度；(2)基于句法分析树实现弱监督定量分析，通过对句子分词和构造句法分析树得到句子的层级修饰关系；然后根据情感词典进行递归向上的标注与计算，计算出各句的情感强度值；(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘，得到文本的终判情感强度。

【技术特征摘要】
1.一种基于混合监督模型的文本情感分析方法，其特征在于，包括：(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析，通过将长短期记忆单元与卷积神经网络联合构造复合神经网络，并用于同时提取文本的序列特征与多维度特征，更准确地预测文本的情感极性可信度；(2)基于句法分析树实现弱监督定量分析，通过对句子分词和构造句法分析树得到句子的层级修饰关系；然后根据情感词典进行递归向上的标注与计算，计算出各句的情感强度值；(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘，得到文本的终判情感强度。2.根据权利要求1所述的方法，其特征在于，所述步骤(1)包括：(1.1)将输入的中文文本分词后通过Word2Vec转化为词向量序列的形式，依序输入长短期记忆单元中，对文本中上下文所包含情感的序列特征进行建模提取；(1.2)将所提取到的特征输入卷积神经网络中，对文本中不同维度下的情感特征进行提取建模；(1.3)将卷积神经网络的输出接入全连接的多层感知机中进行拟合回归，输出文本属于正类的情感极性概率值，再根据此值计算出文本的情感极性可信度。3.根据权利要求2所述的方法，其特征在于，在将每个词向量输入长短期记忆单元后，输出此时模型的隐状态向量并按输入顺序纵向堆叠，将词序列形式的文本映射为一个二维矩阵；然后使用卷积神经网络对该矩阵进行处理，进一步对文本情感的空间特征进行高层抽象后，作为卷积神经网络的输出。4.根据权利要求2所述的方法，其特征在于，在所述步骤(1.2)中，保存相对较浅层次的输出特征图作为n较小的ngram特征，与相对的高层特征一起构成多维度的文本特征输出。5.根据权利要求2所述的方法，其特征在于，在所述步骤(1.2)中，经过多层卷积层提取特征后产生的特征图是不定长的，通过空间金字塔池化将长宽不定的二维矩阵按长宽比例分割映射到一个定长宽的二维网格中，再对落入每个网格中...

【专利技术属性】
技术研发人员：郑小林，杨煜溟，陈一凡，马国芳，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人