一种基于特征多样化的卷积神经网络的情感分析模型构建方法技术

技术编号:19342095 阅读:37 留言:0更新日期:2018-11-07 13:52
本发明专利技术公开一种基于特征多样化的卷积神经网络的情感分析模型构建方法。该方法首先导入情感词典集合与句子语料训练集,并对初始数据集做相应预处理,通过计算情感词在不同极性数据集上出现的文档频数来计算情感得分以及普通词条的权重得分,得到词条得分特征统计值并构建特征向量。把得到的情感词典情感得分向量以及普通词条权重得分向量与向量化后的训练集句子向量进行拼接或者运算操作,得到具有特征信息多样化的输入矩阵。最后用特定参数的卷积神经网络模型训练数据集,得到训练好的模型。本发明专利技术能够解决模型在模型训练过程中对更深层的隐藏情感信息挖掘不够全面的问题,还能够有效提高情感分类的精确度。

A method of constructing sentiment analysis model based on feature diversity and convolution neural network

The invention discloses a construction method of sentiment analysis model based on feature diversity and convolution neural network. Firstly, the method imports the emotional dictionary set and sentence corpus training set, and preprocesses the initial data set. By calculating the document frequency of emotional words appearing on different polar data sets, the emotional score and the weight score of common words are calculated, and the feature statistics of the score of words are obtained and the feature vector is constructed. The emotional score vectors of the emotional dictionary and the weighted score vectors of common entries are combined with the sentence vectors of the training set after vectorization, and the input matrix with diversified feature information is obtained. Finally, a convoluted neural network model with specific parameters is used to train the data set to get the trained model. The invention can solve the problem that the model is not comprehensive enough to mine deeper hidden emotional information in the process of model training, and can effectively improve the accuracy of emotional classification.

【技术实现步骤摘要】
一种基于特征多样化的卷积神经网络的情感分析模型构建方法
本专利技术涉及一种基于特征多样化的卷积神经网络的情感分析模型构建方法,属于深度学习、自然语言处理、机器学习等交叉

技术介绍
近年来,新兴的社交网络中的自然语言处理,识别和分类是如今深度学习领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。随着我国经济社会的发展和科技的进步,对社交网络中的语言数据,尤其以微博这个人们生活中愈发重要的社交平台中语言文字的识别分析和理解已经成为社会科学和自然科学领域的重要内容,如何从微博文字中获取对相关人士有用的情感信息已得到学术界和工业界的广泛关注,对于微博中的人物情感分析主要是通过对文本上下文信息进行分析、处理、归纳等操作来挖掘文本的情感极性。但微博作为一种社交网络,其文本语言和普通文本分类不同,情感分析任务有其特有的情感特征信息,如何充分挖掘文本的情感信息是情感分析任务的关键。目前常用的文本分类方法主要有基于规则和基于机器学习两大类,基于规则的方法主要是通过对文本信息进行分析和学习,从中获取特定的分类规则,对文本进行分类。基于机器学习的方法通过人工标注一部分样本构造训练数据集,使用机器学习算法从训练集中学习分类模型,最后利用分类模型对未知标签的样本进行类别预测,以此来实现文本的自动分类。最近几年,随着对深度学习的越来越深入的研究,以及由于深度网络模型无需依赖复杂的特征工并且可以充分挖掘文本的特征信息等特点,越来越多的研究者开始将深度学习应用到情感分析的任务中,不管是使用使用卷积神经网络(convolutionneuralnetworks,CNN),还是基于LSTM(long-shorttermmemory)网络提出一种文本情感分析网络模型等这些结合了情感特征信息的深度学习方法能更好地利用句子中的情感特征,有效识别句子中的情感极性,对识别准确率有了较大的提升。基于上述研究成果,本专利技术提出一种基于特征多样化的卷积神经网络的情感分析模型构建方法,旨在使模型在训练过程中能挖掘更深层的隐藏情感信息。
技术实现思路
技术问题:本专利技术的目的在于克服现有方法的不足而提供一种实现结合特征多样化的卷积神经网络模型的方法,该方法构造的卷积神经网络模型和普通卷积神经网络相比,该模型能充分考虑情感分析任务中的情感特征信息,拓展网络模型以挖掘更多的隐藏信息,有效地将情感分析任务中有用的特征和卷积神经网络结合,从而提高模型的分类效果。技术方案:本专利技术的一种基于特征多样化的卷积神经网络的情感分析模型构建方法包括以下步骤:步骤1)输入知网上获得的情感单词数据集作为情感分析任务中的情感词集合,并在情感单词数据集中手动加入“蓝瘦”、“笔芯”、“给力”类似的数据集中不存在的带有感情色彩的新兴网络社交词语,以此作为构建该模型所使用的情感词典,并输入网上收集到的带有标记的句子语料训练数据集;步骤2)分褒贬两类统计计算情感词典中的每一个情感词其在不同极性数据集上出现的文档频数并计算该情感词的情感得分;所述步骤2)具体如下:步骤21)对于情感词典中的每一个情感词,通过计算情感词在不同极性数据集上出现的文档频数来计算情感得分,如公式(1)、(2)所示:Freq(senti)=|α×NTsenti-β×NFsenti|(1)式(1)中||为去绝对值操作符号,为向下取整操作,senti为情感词典中的第i个情感词,为包含情感词senti的积极情感数据集样本个数,为包含情感词的消极情感数据集样本个数,Freq(senti)为情感词senti在数据集上的文档频数。Freqmin为最小文档频数,Freqmax为最大文档频数,Score(senti)为包含情感词senti的情感得分。α,β,θ为可调参数,α和β以调整不同极性数据集文档频数的重要程度,θ控制情感得分的阈值。步骤22)每个情感词可映射为一个对应的整数值式(3)中为包含词条wi的积极情感数据集样本个数,为包含词条wi的消极情感数据集样本个数,Weight(wi)为普通词条wi的权重得分。步骤3)使用相同维度的向量来表示情感词的情感得分和普通词条的权重得分,以得到卷积神经网络需要的一次性接收文本的平行化输入,将该每一个情感得分值用一个多维的连续值向量来表示。同样,将每一个普通词条的权重得分映射为一个维度一样的多维连续值向量;所述步骤3)具体如下:步骤31)本专利使用相同维度的向量来表示情感词的情感得分和普通词条的权重得分。模型将每一个得分值都用一个多维的连续值向量来表示,如公式(4)所示:esi=[e1,e2,L,ep](4)式(4)中为情感词得分为i的向量表示,表示esi在实数域中取值,情感数据集中的情感词得分向量集合为Scoer|为式(2)中情感词情感得分集合大小。步骤32)对于每一个普通词条的权重得分,将权重得分映射为一个维度相同的多维连续值向量,如公式(5)所示:ewi=[e1,e2,L,ep](5)式(5)中为情感词得分为i的向量表示,表示ewi在实数域中取值,情感数据集中的情感词得分向量集合为|weight|为式(3)中情感词情感得分集合大小。步骤4)处理句子语料训练数据集,以词为单位将句子表示为一个由词向量组成的二维矩阵,即对于句子中的每一个词条,将词条映射为一个m维的连续值向量,并在卷积神经网络输入层,使用拼接和矩阵运算两种不同的矩阵计算方式来验证本专利提出的多样化特征信息和卷积神经网络结合的有效性;所述步骤4)具体如下:步骤41)句子语料作为训练数据集中长度为n的句子s={w1,w2,L,wn},其中wi为句子中第i个词条,以词为单位将句子表示为一个由词向量组成的二维矩阵,如公式(6)所示:式(6)中为拼接操作表示e1:n在实数域中取值,m为词向量维度。ei为词条wi的词向量,将每一个词条映射为一个m维的连续值向量。步骤42)采用拼接方式形成网络词语的向量表示,由步骤41中得到的词条,当该词为情感词,向量的计算方式如公式(7)所示,当词为普通词语,计算方式如公式(8)所示:步骤43)使用一个权重矩阵来控制特征向量和词向量的输入,如公式(9)、(10)所示:xi=ei+Reesi(9)xi=ei+Reewi(10)式(9)和式(10)中为可调权重矩阵,R表示控制特征向量的分量输入,e为矩阵相乘。步骤5)在数据集上训练一个卷积神经网络,在卷积神经网络中使用多窗口、多卷积核对输入句子进行卷积操作,所述卷积神经网络包括卷积层,下采样层,全连接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数,并使用了dropout机制和权重的正则化限制,最小化交叉熵优化模型。所述步骤5)具体如下:步骤51)卷积神经网络接收句子的平行化输入,对长度为h的卷积窗口,卷积神经网络通过卷积核对输入矩阵x1:n进行卷积操作,如公式(11)所示:ci=f(w·xi:i+h-1+b)(11)式(11)中为卷积核权重,表示w在实数域中取值,i表示xi维度,为偏置,f为激活函数,xi:i+h-1为一个卷积窗口的词向量矩阵,i是遍历次数。长度为n的句子,通过卷积操作可得到如公式(12)所示的卷积后特征向量,c=[c1,c2,L,cn-h+1](12)步骤52)从每一个特征向量中提取一个最大的值本文档来自技高网
...

【技术保护点】
1.一种基于特征多样化的卷积神经网络的情感分析模型构建方法,其特征在于,包括以下步骤:步骤1)输入情感单词数据集作为情感分析任务中的情感词集合,并在情感单词数据集中加入新兴社交网络词语,以此作为构建该模型所使用的情感词典,并输入带有标记的句子语料作为训练数据集;步骤2)分褒贬两类统计计算情感词典中的不同情感词在褒贬两类极性数据集上出现的次数并计算该情感词的情感得分;步骤3)使用相同维度的向量来表示情感词的情感得分和普通词条的权重得分,得到卷积神经网络需要的一次性接收文本的平行化输入,将每一个情感得分值用一个多维的连续值向量来表示,将每一个普通词条的权重得分映射为一个维度一样的多维连续值向量;步骤4)以词为单位将语料训练数据集中的不同句子表示为一个由词向量组成的二维矩阵,对于句子中的每一个词条,将词条映射为一个随数据集大小改变的m维的连续值向量;在卷积神经网络输入层,使用拼接和矩阵运算两种不同的矩阵计算方式验证本专利提出的多样化特征信息和卷积神经网络结合的有效性;步骤5)在数据集上训练一个卷积神经网络,卷积神经网络中使用多窗口、多卷积核对输入句子进行卷积操作,所述卷积神经网络包括卷积层,池化层,全连接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数,并使用了dropout机制和权重的正则化限制训练模型,最小化交叉熵优化模型。...

【技术特征摘要】
1.一种基于特征多样化的卷积神经网络的情感分析模型构建方法,其特征在于,包括以下步骤:步骤1)输入情感单词数据集作为情感分析任务中的情感词集合,并在情感单词数据集中加入新兴社交网络词语,以此作为构建该模型所使用的情感词典,并输入带有标记的句子语料作为训练数据集;步骤2)分褒贬两类统计计算情感词典中的不同情感词在褒贬两类极性数据集上出现的次数并计算该情感词的情感得分;步骤3)使用相同维度的向量来表示情感词的情感得分和普通词条的权重得分,得到卷积神经网络需要的一次性接收文本的平行化输入,将每一个情感得分值用一个多维的连续值向量来表示,将每一个普通词条的权重得分映射为一个维度一样的多维连续值向量;步骤4)以词为单位将语料训练数据集中的不同句子表示为一个由词向量组成的二维矩阵,对于句子中的每一个词条,将词条映射为一个随数据集大小改变的m维的连续值向量;在卷积神经网络输入层,使用拼接和矩阵运算两种不同的矩阵计算方式验证本专利提出的多样化特征信息和卷积神经网络结合的有效性;步骤5)在数据集上训练一个卷积神经网络,卷积神经网络中使用多窗口、多卷积核对输入句子进行卷积操作,所述卷积神经网络包括卷积层,池化层,全连接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数,并使用了dropout机制和权重的正则化限制训练模型,最小化交叉熵优化模型。2.根据权利要求1所述的一种基于特征多样化的卷积神经网络的情感分析模型构建方法,其特征在于,所述步骤2)具体如下:步骤21)情感词典中出现的每一个情感词,计算情感词在不同极性数据集上出现的次数来计算情感得分,如公式(1)、(2)所示:式(1)中||为去绝对值操作符号,式(2)中为向下取整操作,式(1)和式(2)中senti为情感词典中的第i个情感词,为包含情感词senti的积极情感数据集样本个数,为包含情感词的消极情感数据集样本个数,Freq(senti)为情感词senti在数据集上重要程度表示;Freqmin为最小文档频数,Freqmax为最大文档频数,Score(senti)为包含情感词senti的情感得分,α,β,θ为可调参数,α和β用来调整不同极性数据集文档频数的重要程度,θ控制情感得分的阈值;步骤22)将每个情感词映射为一个对应的整数值:式(3)中为包含词条wi的积极情感数据集样本个数,为包含词条wi的消极情感数据集样本个数,Weight(wi)为普通词条wi的权重得分。3.根据权利要求1所述的一种基于特征多样化的卷积神经网络的情感分析模型构建方法,其特征在于,所述步骤3)具体如下:步骤31)用相同维度的向量来表示情感词的情感得分和普通词条的权重得分,模型将每一个得分值都用一个多维的连续值向量来表示,如公式(4)所示:esi=[e1,e2,L,ep](4)式(4)中为情感词得分为i的向量表示,表示esi在实数域中取值,情感数据集中的情感词得分向量集合为|Scoer|为式(2)中情感词情感得分集合大小;步骤32)对于每一个普通词条的权重得分,将权重得分映射为一个维度相同的多维连续值向量,如公式(5)所示:ewi=[e1,e2,L,ep](5)式(5)中为情感词得分为i的向量表示,表示ewi在实数域中取值,情感数据集中的情感词得分向量集合为|weight|为式(3)中情感词情感得分集合大小。4.根据权利要求1所述的一种基于特征多样化的卷积神经网络的情感分析模型构建方法,其特征在于,所述步骤4)具体如下:步骤41)句子语料作为训练数据集中长度为n的句子s={w1,w2,L,wn...

【专利技术属性】
技术研发人员:骆威奇岳文静陈志金广华魏梦冶柴一帆
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1