一种基于半监督学习的用户评论情感分析方法技术

技术编号：22166924 阅读：25 留言：0更新日期：2019-09-21 10:35

本发明专利技术提供一种基于半监督学习的用户评论情感分析方法，该方法采用预训练词嵌入层、双向LSTM层以及最大池化层，能有效提取语料的上下文语义特征。在无标注数据上训练被限制部分信息的辅助模块，使其输出尽可能接近有完全信息输入的主模块。由于主模块与辅助模块共享由Encoder网络输出的中间表征，对辅助模块的训练可增强Encoder网络的上下文语义特征提取能力。相比于现有的深度学习技术，能有效利用现实环境中大量存在的无标注数据，降低模型训练对标注数据的依赖，降低人工标注数据的成本。

A Semi-supervised Learning-based Emotional Analysis Method for User Comments

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的用户评论情感分析方法
本专利技术涉及自然语言处理领域，更具体地，涉及一种基于半监督学习的用户评论情感分析方法。
技术介绍
用户评论是企业竞争情报分析重要的数据源，这些评论中包含用户对产品各个方面的情感倾向，充分挖掘消费者的喜好偏爱对商家具有重要的意义。但是目前互联网上的信息量增长迅速,迫切需要借助自动化工具，在海量文本数据中迅速获取真正需要的情感信息,从而应对信息爆炸带来的挑战。情感分析,就是利用计算机学科的自然语言处理技术，对这些信息进行有效的分析和挖掘,识别出其情感趋向。传统的情感分析方法分为两种类型：无监督的文本情感分析和有监督的文本情感分析。无监督的文本情感分析主要是运用情感词的相关信息进行文本情感倾向判别,有监督的文本情感分析主要是运用朴素贝叶斯、支持向量机等有监督学习算法进行情感分类,一般是将文本集合划分为训练集和测试集,再对文本分词处理、删除停用词、选取特征,将文本表示成为文本向量的形式,最后训练分类器并进行分析。近年来深度学习的兴起为情感分析提供了新方法，大大提升情感分析的准确性。深度学习本质上是构建含有多隐层的机器学习架构模型，通过大规模数据进行训练，得到大量更具代表性的特征信息。从而对样本进行分类和预测，提高分类和预测的精度。深度学习模型具有很强的表达能力，然而训练深度学习模型需要大量的标注数据，否则会出现过拟合现象。在现实应用中往往能容易地收集到大量无标注数据，而获取标注却需耗费人力、物力。“标注数据少，无标注数据多”的现象，使深度学习在用户评价情感分析问题的应用受到限制。
技术实现思路
本专利技术提供一种准确率较高基...

【技术保护点】
1.一种基于半监督学习的用户评论情感分析方法，其特征在于，包括以下步骤：S1：搭建用于特征提取的神经网络Encoder；S2：搭建用于情感分类的主模块C1；S3：搭建用于辅助训练的辅助模块C2、C3、C4；辅助模块只在训练阶段使用；辅助模块从主模块预测中学习的过程，改善Encoder网络的特征提取能力；S4：对收集到的数据集进行预处理；S5：模型在小批量标注数据和无标注数据上交替训练；在标注数据上训练主模块C1和Encoder网络，在无标注数据上训练辅助模块C2、C3、C4和Encoder网络；S6：使用训练完成的Encoder网络和主模块C1进行情感分析。

【技术特征摘要】
1.一种基于半监督学习的用户评论情感分析方法，其特征在于，包括以下步骤：S1：搭建用于特征提取的神经网络Encoder；S2：搭建用于情感分类的主模块C1；S3：搭建用于辅助训练的辅助模块C2、C3、C4；辅助模块只在训练阶段使用；辅助模块从主模块预测中学习的过程，改善Encoder网络的特征提取能力；S4：对收集到的数据集进行预处理；S5：模型在小批量标注数据和无标注数据上交替训练；在标注数据上训练主模块C1和Encoder网络，在无标注数据上训练辅助模块C2、C3、C4和Encoder网络；S6：使用训练完成的Encoder网络和主模块C1进行情感分析。2.根据权利要求1所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S1的具体过程是：S11：搭建Encoder网络的第一层词嵌入层，并使用fastTest预训练词嵌入矩阵初始化词嵌入层的参数，将单词序列(w1，w2，......，wT)作为该层输入，将词嵌入后的词向量(v1，v2，......，vT)作为该层输出；S12：搭建Encoder网络的第二层双向LSTM层，将词嵌入层的输出作为该层的输入，在每个时间步t，前向LSTM输出表示为后向LSTM输出表示为S13：搭建Encoder网络的第三层最大池化层，将每个时间步的前向LSTM输出和后向LSTM输出连接起来，表示为将ht序列作为最大池化层的输入，获得单词序列的特征表示hl。3.根据权利要求2所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S2的具体过程是：主模块C1包括一个全连接层与一个softmax层，将Encoder网络中最大池化层的输出hl作为主模块C1的输入，softmax层的输出为主模块C1计算出的情感类别概率分布，在训练阶段，该概率分布用于计算损失函数，在实际预测阶段，将概率最大的情感类别作为情感分类结果。4.根据权利要求3所述的基于半监督学习的用户评论情感分析方法，其特征在于，所述步骤S3的具体过程是：S31：...

【专利技术属性】
技术研发人员：黄礼潇，常会友，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人