一种基于改进神经网络的评论情感分析方法技术

技术编号:24121643 阅读:25 留言:0更新日期:2020-05-13 03:15
本发明专利技术公开一种基于改进神经网络的评论情感分析方法,对于输入的评论文本数据,构造评论表征矩阵;依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;拼接得到的每个特征图的特征向量,并使其与全连接层相连;使用Softmax函数将全连接层的输出映射为一个概率分布向量,该概率分布向量的每一维对应情感分析任务中的一个情感类别;选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。本发明专利技术能够有效对文本序列建模,能够有效保留文本的序列特征,从而精确有效地识别评论文本内容中的情感态度。

【技术实现步骤摘要】
一种基于改进神经网络的评论情感分析方法
本专利技术属于文本识别
,特别是涉及一种基于改进神经网络的评论情感分析方法。
技术介绍
评论情感分析的目的是通过智能化方法使计算机“理解”评论者对所评商品的情感态度。传统情感分析算法主要使用基于统计的手段提取文本在词频、序列等方面的固有特性,然后使用经典统计学习算法(如贝叶斯、支持向量机、决策树等)构建分类模型,实现文本的情感分析。传统情感分析算法大多依赖于词袋模型或马尔可夫假设。词袋模型仅考虑与词频相关的信息,忽略词与词之间的序列关系,因此无法有效进行序列建模。马尔可夫假设则认为“一个词的出现仅与其前k个词相关”,因此无法解决长序列建模的问题。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于改进神经网络的评论情感分析方法,能够有效对文本序列建模,有效保留文本的序列特征,从而精确有效地识别评论文本内容的情感态度。为达到上述目的,本专利技术采用的技术方案是:一种基于改进神经网络的评论情感分析方法,包括步骤:对于输入的评论文本数据,构造评论表征矩阵;依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;拼接得到的每个特征图的特征向量,并使其与全连接层相连;使用Softmax函数将全连接层的输出映射为一个概率分布向量,且该概率分布向量的每一维对应情感分析任务中的一个情感类别;选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。进一步的是,对于输入的评论文本数据,进行分词处理,使用字词向量转换方法得到中文词向量,构造评论表征矩阵。进一步的是,所述字词向量转换方法采用word2vec方法,将字词转换成多维向量。进一步的是,所述评论表征矩阵的每一行表示评论中的一个词,每一列表示词向量的特定维度,所述词向量维度设置为300。进一步的是,所述多个卷积核依次为3×300卷积核、4×300卷积核和5×300的卷积核,且每一类卷积核的数量设置为100。进一步的是,使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量,包括步骤:设置金字塔池化的等级为[n1,n2,...,nk];依次将每个特征图等分为ni份,i=1,2,3,...,k;使用maxpooling从划分后的每一份特征图采样出最大值,并拼接该数个最大值得到固定长度的特征向量。使用金字塔池化等分经卷积得到的每个特征向量,然后使用MaxPooling提取每一份的最大值。保证不同子特征向量间的序列结构,能够有效利用文本的序列结构信息。进一步的是,所述全连接层的数量与情感分析任务分类数量一致。情感评论分为两类(好评、差评)时,全连接层为2;情感评论分为五类(极差、较差、中性、较好、极好)时,全连接层为5。采用本技术方案的有益效果:本专利技术依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量。能够按照其序列顺序有效采样各个特征图,实现序列建模;不论输入特征图的大小尺寸,输出大小尺寸是固定的,能够解决输入特征图大小不一致的问题。本专利技术通过使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;拼接得到每个特征图的特征向量,并使其与全连接层相连;将特征向量进行固定长度处理并拼接。能够有效避免输入文本长度差异,有效利用文本的序列结构信息。本专利技术通过选择得到的概率分布向量中概率最大值对应的情感类别为模型判断结果。能够精确有效识别评论文本内容的情感态度。附图说明图1为本专利技术的一种基于改进神经网络的评论情感分析方法流程示意图;图2为本专利技术实施例中改进神经网络的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步阐述。在本实施例中,参见图1和图2所示,本专利技术提出了一种基于改进神经网络的评论情感分析方法,包括步骤:对于输入的评论文本数据,构造评论表征矩阵;依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;拼接得到的每个特征图的特征向量,并使其与全连接层相连;使用Softmax函数将全连接层的输出映射为一个概率分布向量,且该向量的每一维对应情感分析任务中的一个情感类别;选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。作为上述实施例的优化方案,对于输入的评论文本数据,进行分词处理并使用字词向量转换方法得到中文词向量并构造评论表征矩阵。所述字词向量转换方法采用word2vec方法,将字词转换成多维向量。所述评论表征矩阵中每一行表示评论中的一个词,且每一列表示词向量的特定维度,所述词向量维度设置为300。作为上述实施例的优化方案,所述多个卷积核依次为3×300卷积核、4×300卷积核和5×300的卷积核,且每一类卷积核的数量设置为100。作为上述实施例的优化方案,使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量,包括步骤:设置金字塔池化的等级为[n1,n2,...,nk];依次将每个特征图等分为ni份,i=1,2,3,...,k;使用maxpooling从划分后的每一份特征图中采样出最大值,并拼接该数个最大值得到固定长度的特征向量。使用金字塔池化等分经卷积得到的每个特征向量,然后使用MaxPooling提取每一份的最大值。不同子特征向量间的序列结构得到了保证,能够有效利用文本的序列结构信息。作为上述实施例的优化方案,所述全连接层的数量与情感分析任务分类数量一致。情感评论分为两类(好评、差评)时,全连接层为2;或情感评论分为五类(极差、较差、中性、较好、极好),全连接层为5。为了验证本专利技术所提出的方法,从美团、饿了么和百度星选共爬取3万条评论文本数据,然后将情感评论分类为“好评”与“差评”。利用构造好的训练集训练如图2所示的改进神经网络。训练过程中,文本使用Google的word2vec预训练模型;模型的学习率为1e-3;一共使用三种大小的卷积核,其大小分别为3、4、5,且各自数量均为100;金字塔池化分别将原始特征向量分为2、3、4份。模型训练好后,将其应用于评论自动情感分析任务;抽查得到的模型准确率可达到91.3%。以上显示和描述了本专利技术的基本原理和主要特征和本专利技术的优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护范围由所附的权利要求书及其等效物界定。本文档来自技高网...

【技术保护点】
1.一种基于改进神经网络的评论情感分析方法,其特征在于,包括步骤:/n对于输入的评论文本数据,构造评论表征矩阵;/n依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;/n使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;/n拼接得到的每个特征图的特征向量,并使其与全连接层相连;/n使用Softmax函数将全连接层的输出映射为一个概率分布向量,该概率分布向量的每一维对应情感分析任务中的一个情感类别;/n选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。/n

【技术特征摘要】
1.一种基于改进神经网络的评论情感分析方法,其特征在于,包括步骤:
对于输入的评论文本数据,构造评论表征矩阵;
依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;
使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;
拼接得到的每个特征图的特征向量,并使其与全连接层相连;
使用Softmax函数将全连接层的输出映射为一个概率分布向量,该概率分布向量的每一维对应情感分析任务中的一个情感类别;
选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。


2.根据权利要求1所述的一种基于改进神经网络的评论情感分析方法,其特征在于,对于输入的评论文本数据,进行分词处理,使用字词向量转换方法得到中文词向量,构造评论表征矩阵。


3.根据权利要求2所述的一种基于改进神经网络的评论情感分析方法,其特征在于,所述字词向量转换方法采用word2vec方法,将字词转换成多维向量。


4.根据权利要求3所述的...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:成都数之联科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1