当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于半监督学习的用户评论情感分析方法技术

技术编号:22166924 阅读:25 留言:0更新日期:2019-09-21 10:35
本发明专利技术提供一种基于半监督学习的用户评论情感分析方法,该方法采用预训练词嵌入层、双向LSTM层以及最大池化层,能有效提取语料的上下文语义特征。在无标注数据上训练被限制部分信息的辅助模块,使其输出尽可能接近有完全信息输入的主模块。由于主模块与辅助模块共享由Encoder网络输出的中间表征,对辅助模块的训练可增强Encoder网络的上下文语义特征提取能力。相比于现有的深度学习技术,能有效利用现实环境中大量存在的无标注数据,降低模型训练对标注数据的依赖,降低人工标注数据的成本。

A Semi-supervised Learning-based Emotional Analysis Method for User Comments

【技术实现步骤摘要】
一种基于半监督学习的用户评论情感分析方法
本专利技术涉及自然语言处理领域,更具体地,涉及一种基于半监督学习的用户评论情感分析方法。
技术介绍
用户评论是企业竞争情报分析重要的数据源,这些评论中包含用户对产品各个方面的情感倾向,充分挖掘消费者的喜好偏爱对商家具有重要的意义。但是目前互联网上的信息量增长迅速,迫切需要借助自动化工具,在海量文本数据中迅速获取真正需要的情感信息,从而应对信息爆炸带来的挑战。情感分析,就是利用计算机学科的自然语言处理技术,对这些信息进行有效的分析和挖掘,识别出其情感趋向。传统的情感分析方法分为两种类型:无监督的文本情感分析和有监督的文本情感分析。无监督的文本情感分析主要是运用情感词的相关信息进行文本情感倾向判别,有监督的文本情感分析主要是运用朴素贝叶斯、支持向量机等有监督学习算法进行情感分类,一般是将文本集合划分为训练集和测试集,再对文本分词处理、删除停用词、选取特征,将文本表示成为文本向量的形式,最后训练分类器并进行分析。近年来深度学习的兴起为情感分析提供了新方法,大大提升情感分析的准确性。深度学习本质上是构建含有多隐层的机器学习架构模型,通过大规模数据进行训练,得到大量更具代表性的特征信息。从而对样本进行分类和预测,提高分类和预测的精度。深度学习模型具有很强的表达能力,然而训练深度学习模型需要大量的标注数据,否则会出现过拟合现象。在现实应用中往往能容易地收集到大量无标注数据,而获取标注却需耗费人力、物力。“标注数据少,无标注数据多”的现象,使深度学习在用户评价情感分析问题的应用受到限制。
技术实现思路
本专利技术提供一种准确率较高基于半监督学习的用户评论情感分析方法。为了达到上述技术效果,本专利技术的技术方案如下:一种基于半监督学习的用户评论情感分析方法,其特征在于,包括以下步骤:S1:搭建用于特征提取的神经网络Encoder;S2:搭建用于情感分类的主模块C1;S3:搭建用于辅助训练的辅助模块C2、C3、C4;辅助模块只在训练阶段使用;辅助模块从主模块预测中学习的过程,改善Encoder网络的特征提取能力;S4:对收集到的数据集进行预处理;S5:模型在小批量标注数据和无标注数据上交替训练;在标注数据上训练主模块C1和Encoder网络,在无标注数据上训练辅助模块C2、C3、C4和Encoder网络;S6:使用训练完成的Encoder网络和主模块C1进行情感分析。进一步地,所述步骤S1的具体过程是:S11:搭建Encoder网络的第一层词嵌入层,并使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数,将单词序列(w1,w2,……,wT)作为该层输入,将词嵌入后的词向量(v1,v2,……,vT)作为该层输出;S12:搭建Encoder网络的第二层双向LSTM层,将词嵌入层的输出作为该层的输入,在每个时间步t,前向LSTM输出表示为后向LSTM输出表示为t∈[1,T];S13:搭建Encoder网络的第三层最大池化层,将每个时间步的前向LSTM输出和后向LSTM输出连接起来,表示为t∈[1,T],将ht序列作为最大池化层的输入,获得单词序列的特征表示hl。进一步地,所述步骤S2的具体过程是:主模块C1包括一个全连接层与一个softmax层,将Encoder网络中最大池化层的输出hl作为主模块C1的输入,softmax层的输出为主模块C1计算出的情感类别概率分布,在训练阶段,该概率分布用于计算损失函数,在实际预测阶段,将概率最大的情感类别作为情感分类结果。进一步地,所述步骤S3的具体过程是:S31:辅助模块C2包括一个全连接层与一个softmax层,将T时刻Encoder网络中前向LSTM的输出作为辅助模块C2的输入,softmax层的输出为辅助模块C2计算出的情感类别概率分布,该概率分布仅用于在训练阶段计算损失函数;S32:辅助模块C3包括一个全连接层与一个softmax层,将T时刻Encoder网络中后向LSTM的输出作为辅助模块C3的输入,softmax层的输出为辅助模块C3计算出的情感类别概率分布,该概率分布仅用于在训练阶段计算损失函数;S33:辅助模块C4包括一个全连接层与一个softmax层,将T时刻Encoder网络中前向LSTM的输出和后向LSTM的输出连接起来,表示为作为辅助模块C4的输入,softmax层的输出为辅助模块C4计算出的情感类别概率分布,该概率分布仅用于在训练阶段计算损失函数。进一步地,所述步骤S4的具体过程是:所使用的语料包括标注数据和无标注数据;无标注数据全部作为训练集,标注数据划分为训练集和测试集,对语料进行分词、去停用词和标点符号处理,并填充或截断成相同长度。进一步地,所述步骤S5的具体过程是:S51:使用标注数据在主模块C1上进行标准监督学习,将文本输入Encoder网络,得到中间表征,主模块C1利用中间表征进行预测,计算主模块预测结果与标注之间的交叉熵损失,并使用梯度下降算法更新主模块参数和Encoder网络参数;S52:使用无标注数据训练模型,先将文本输入Encoder网络,得到中间表征,主模块C1和辅助模块分别利用中间表征和中间表征的子集进行预测,得出主模块C1和辅助模块的预测结果,将主模块预测结果作为伪标注,计算辅助模块预测结果与伪标注之间的交叉熵损失,并使用梯度下降算法更新辅助模块参数和Encoder网络参数,由于主模块与辅助模块共享Encoder网络,因此主模块的预测效果得到提升。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术采用预训练词嵌入层、双向LSTM层以及最大池化层,能有效提取语料的上下文语义特征。在无标注数据上训练被限制部分信息的辅助模块,使其输出尽可能接近有完全信息输入的主模块。由于主模块与辅助模块共享由Encoder网络输出的中间表征,对辅助模块的训练可增强Encoder网络的上下文语义特征提取能力。相比于现有的深度学习技术,能有效利用现实环境中大量存在的无标注数据,降低模型训练对标注数据的依赖,降低人工标注数据的成本。附图说明图1为本专利技术流程示意图;图2为本专利技术的Encoder网络结构示意图;图3为本专利技术的预测模块结构示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1本实施所采用的数据集是斯坦福大学提供的IMDB电影评论数据集,包含25000条训练数据和25000条测试数据,另外包含约50000条没有标注的辅助数据。训练集和测试集又分别包含12500条正例(正向评价pos)和12500负例(负向评价neg)如图1所示,本专利技术具体方法步骤如下:第一步,根据图2搭建用于特征提取的神经网络Encoder,使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数。Encoder网络对文本数据的处理过程为:将单词序列(w1,w2,……,wT)输入Encoder网络。词嵌入层可将单词序列映射到稠密维度空间,得到词向量(v1,v2,……,vT)。将词向量(v1,v2,……,vT)输入双向LS本文档来自技高网...

【技术保护点】
1.一种基于半监督学习的用户评论情感分析方法,其特征在于,包括以下步骤:S1:搭建用于特征提取的神经网络Encoder;S2:搭建用于情感分类的主模块C1;S3:搭建用于辅助训练的辅助模块C2、C3、C4;辅助模块只在训练阶段使用;辅助模块从主模块预测中学习的过程,改善Encoder网络的特征提取能力;S4:对收集到的数据集进行预处理;S5:模型在小批量标注数据和无标注数据上交替训练;在标注数据上训练主模块C1和Encoder网络,在无标注数据上训练辅助模块C2、C3、C4和Encoder网络;S6:使用训练完成的Encoder网络和主模块C1进行情感分析。

【技术特征摘要】
1.一种基于半监督学习的用户评论情感分析方法,其特征在于,包括以下步骤:S1:搭建用于特征提取的神经网络Encoder;S2:搭建用于情感分类的主模块C1;S3:搭建用于辅助训练的辅助模块C2、C3、C4;辅助模块只在训练阶段使用;辅助模块从主模块预测中学习的过程,改善Encoder网络的特征提取能力;S4:对收集到的数据集进行预处理;S5:模型在小批量标注数据和无标注数据上交替训练;在标注数据上训练主模块C1和Encoder网络,在无标注数据上训练辅助模块C2、C3、C4和Encoder网络;S6:使用训练完成的Encoder网络和主模块C1进行情感分析。2.根据权利要求1所述的基于半监督学习的用户评论情感分析方法,其特征在于,所述步骤S1的具体过程是:S11:搭建Encoder网络的第一层词嵌入层,并使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数,将单词序列(w1,w2,......,wT)作为该层输入,将词嵌入后的词向量(v1,v2,......,vT)作为该层输出;S12:搭建Encoder网络的第二层双向LSTM层,将词嵌入层的输出作为该层的输入,在每个时间步t,前向LSTM输出表示为后向LSTM输出表示为S13:搭建Encoder网络的第三层最大池化层,将每个时间步的前向LSTM输出和后向LSTM输出连接起来,表示为将ht序列作为最大池化层的输入,获得单词序列的特征表示hl。3.根据权利要求2所述的基于半监督学习的用户评论情感分析方法,其特征在于,所述步骤S2的具体过程是:主模块C1包括一个全连接层与一个softmax层,将Encoder网络中最大池化层的输出hl作为主模块C1的输入,softmax层的输出为主模块C1计算出的情感类别概率分布,在训练阶段,该概率分布用于计算损失函数,在实际预测阶段,将概率最大的情感类别作为情感分类结果。4.根据权利要求3所述的基于半监督学习的用户评论情感分析方法,其特征在于,所述步骤S3的具体过程是:S31:...

【专利技术属性】
技术研发人员:黄礼潇常会友
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1