当前位置: 首页 > 专利查询>浙江大学专利>正文

基于混合监督模型的文本情感分析方法技术

技术编号:22295634 阅读:119 留言:0更新日期:2019-10-15 04:46
本发明专利技术涉及自然语言分析技术,旨在提供一种基于混合监督模型的文本情感分析方法。包括:利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将LSTM与CNN联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;将前述可信度与情感强度相乘,得到文本的终判情感强度。本发明专利技术提出的混合监督模型,可以取现有技术两种计算方式的长处,能够给出兼具可信度与精细度的分析结果。

A Text Emotion Analysis Method Based on Hybrid Supervisory Model

【技术实现步骤摘要】
基于混合监督模型的文本情感分析方法
本专利技术涉及自然语言分析技术,特别涉及基于混合监督模型的文本情感分析方法。
技术介绍
文本情感分析是指利用自然语言处理(NaturalLanguageProcessing,NLP)领域相关手段对目标文本中的主观情感因素进行研究分析的技术。通常而言,情感分析的目的是为了分析判断作者在给定文本中表达出的情感趋向或者情绪类别、观点意见等。现有的情感分析各类方案,依据训练集标签种类和分析结果的粒度,可以分为以下两类:定性情感分析对被分析文本给出定性的情感极性方向,以及相应的正极性概率值。其训练集的标签只有两个可能取值,分别代表正负两个极性标签。定量情感分析对被分析文本给出定量的情感强度值,而强度值的符号代表情感极性方向。训练集的标签文本的情感强度值,其可能取值有多个,每个可能取值代表不同的情感强度级别。定性情感分析的研究中,普遍涉及到了词的向量表示以及文本特征提取。自然语言处理领域中的一个重要研究领域就是如何将词汇转化为易于计算和处理的形式,由于词汇是字符串,无法对其进行直接加减等计算,因此需要将其转化为易于计算机处理计算的二进制结构化数据形式,2013年Google开源了其用于将词转化为向量表示的工具Word2Vec,能够使用无监督的语料将词汇转化为多维度实数向量,被人们广泛使用;而文本特征提取的任务是将词向量序列状态的文本转化为便于模型计算处理的数据结构,所提取出特征的质量好坏直接决定了模型最终的表现上限,目前常用的文本特征提取方式主要包括基于规则、基于统计特征、基于文本表示模型和基于神经网络四种。定量情感分析的研究中,目前成果较少,其核心原因是所需的篇章级别情感强度标注数据集较为缺乏,很多时候只能依靠弱监督方式。大致上,定量情感分析方式可以分为基于强监督学习和基于弱监督学习两类。文本情感分析领域在国内外具有很多研究成果,应用了支持向量机SVM,朴素贝叶斯发、最大熵模型、LSTM、CNN等模型,但是这些方案无法提供可靠的文本定量情感强度值。在某些场景下的情感分析任务中会希望得到定量的分析结果,但目前普遍应用的定性分析方式无法满足此要求,而现有的各类定量分析方式也面临可靠性不足的问题。为了提供较为可靠的文本定量情感强度值,本专利技术提出了基于混合监督模型的文本情感分析算法。
技术实现思路
本专利技术要解决的技术问题是,克服现有技术中的不足,提供一种基于混合监督模型的文本情感分析方法。为解决上述技术问题,本专利技术采用的解决方案是:提供一种基于混合监督模型的文本情感分析方法,包括:(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元(LSTM)与卷积神经网络(CNN)联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;(2)基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘,得到文本的终判情感强度。本专利技术中,所述步骤(1)包括:(1.1)将输入的中文文本分词后通过Word2Vec转化为词向量序列的形式,依序输入长短期记忆单元中,对文本中上下文所包含情感的序列特征进行建模提取;(1.2)将所提取到的特征输入卷积神经网络中,对文本中不同维度下的情感特征进行提取建模;(1.3)将卷积神经网络的输出接入全连接的多层感知机中进行拟合回归,输出文本属于正类的情感极性概率值,再根据此值计算出文本的情感极性可信度。本专利技术中,在将每个词向量输入长短期记忆单元后,输出此时模型的隐状态向量并按输入顺序纵向堆叠,将词序列形式的文本映射为一个二维矩阵;然后使用卷积神经网络对该矩阵进行处理,进一步对文本情感的空间特征进行高层抽象后,作为卷积神经网络的输出。本专利技术中,在所述步骤(1.2)中,保存相对较浅层次的输出特征图作为n较小的ngram特征,与相对的高层特征一起构成多维度的文本特征输出。本专利技术中,在所述步骤(1.2)中,经过多层卷积层提取特征后产生的特征图是不定长的,导致提取出的特征图无法直接输入宽度固定的全连接层,需进一步通过空间金字塔池化方式将变长的输入映射到定长的输出,具体包括:将长宽不定的二维矩阵按长宽比例分割映射到一个定长宽的二维网格中,再对落入每个网格中的子矩阵进行相应的池化操作,得到定长的输出。本专利技术中,在所述步骤(1.3)中,为了保证卷积神经网络层的充分训练,应当将卷积神经网络层最后时刻的隐状态输出也输入全连接层中,即为卷积神经网络层创建一个短路连接。本专利技术中,所述步骤(2)包括:(2.1)构造基于句法分析树的弱监督定量分析模型,对待分析文本进行分句与分词后,逐句进行句法分析,构造句法分析树,并根据词典和预定规则对句法分析树进行自底向上的递归标记计算,最终得到每句的情感强度值;(2.2)对文本进行关键词提取,根据每个句子内所包含的关键词数量与权重以及与标题的相似度综合确定句子的权重,再将所有句子的情感强度值加权求和,得到文本的初判情感强度值。本专利技术进一步提供了一种基于混合监督模型的文本情感分析装置,包括:强监督定性分析模块,用于利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元与卷积神经网络联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;弱监督定量分析模块,用于基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;终判情感强度模块,用于将强监督部分给出的可信度与弱监督部分给出的情感强度相乘,得到文本的终判情感强度。本专利技术进一步提供了一种基于混合监督模型的文本情感分析装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,能够实现如权利要求1至6任一项所述基于混合监督模型的文本情感分析方法。本专利技术进一步提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能够实现如权利要求1至6任一项所述基于混合监督模型的文本情感分析方法。与现有技术相比,本专利技术的技术效果是:在情感分析领域,最好的现有技术都是单一的定性分析或定量分析,这两者都存在各自的缺陷:定性分析较为可靠,但无法给出耕细粒度的分析结果,实用性受限;定量分析虽然能够给出具体的情感强度,但因其弱监督方式,可信度方面稍显欠缺。本专利技术提出的混合监督模型,可以取上述两者的长处,能够给出兼具可信度与精细度的分析结果。附图说明图1强监督定性部分的算法流程图;图2LSTM-CNN复合神经网络架构图;图3复合神经网络中的CNN卷积层及其输出;图4空间金字塔池化;图5全连接层的构造;图6弱监督定量分析部分的算法流程图;图7原始句法分析树;图8完全标注的句法分析树;图9基于混合监督模型的文本分析算法基本流程图。具体实施方式首先需要说明的是,本专利技术涉及大数据分析及深度学习技术,是计算机技术在的一种应用。在本专利技术的实现过程中,会涉及到多个软件功能本文档来自技高网
...

【技术保护点】
1.一种基于混合监督模型的文本情感分析方法,其特征在于,包括:(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元与卷积神经网络联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;(2)基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘,得到文本的终判情感强度。

【技术特征摘要】
1.一种基于混合监督模型的文本情感分析方法,其特征在于,包括:(1)利用基于复合神经网络的定性情感分析模型进行强监督定性分析,通过将长短期记忆单元与卷积神经网络联合构造复合神经网络,并用于同时提取文本的序列特征与多维度特征,更准确地预测文本的情感极性可信度;(2)基于句法分析树实现弱监督定量分析,通过对句子分词和构造句法分析树得到句子的层级修饰关系;然后根据情感词典进行递归向上的标注与计算,计算出各句的情感强度值;(3)将步骤(1)中强监督部分给出的可信度与步骤(2)中弱监督部分给出的情感强度相乘,得到文本的终判情感强度。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括:(1.1)将输入的中文文本分词后通过Word2Vec转化为词向量序列的形式,依序输入长短期记忆单元中,对文本中上下文所包含情感的序列特征进行建模提取;(1.2)将所提取到的特征输入卷积神经网络中,对文本中不同维度下的情感特征进行提取建模;(1.3)将卷积神经网络的输出接入全连接的多层感知机中进行拟合回归,输出文本属于正类的情感极性概率值,再根据此值计算出文本的情感极性可信度。3.根据权利要求2所述的方法,其特征在于,在将每个词向量输入长短期记忆单元后,输出此时模型的隐状态向量并按输入顺序纵向堆叠,将词序列形式的文本映射为一个二维矩阵;然后使用卷积神经网络对该矩阵进行处理,进一步对文本情感的空间特征进行高层抽象后,作为卷积神经网络的输出。4.根据权利要求2所述的方法,其特征在于,在所述步骤(1.2)中,保存相对较浅层次的输出特征图作为n较小的ngram特征,与相对的高层特征一起构成多维度的文本特征输出。5.根据权利要求2所述的方法,其特征在于,在所述步骤(1.2)中,经过多层卷积层提取特征后产生的特征图是不定长的,通过空间金字塔池化将长宽不定的二维矩阵按长宽比例分割映射到一个定长宽的二维网格中,再对落入每个网格中...

【专利技术属性】
技术研发人员:郑小林杨煜溟陈一凡马国芳
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1