一种基于特征提取的深度学习情感分类方法技术

技术编号：20944553 阅读：32 留言：0更新日期：2019-04-24 02:25

本发明专利技术提供一种基于特征提取的深度学习情感分类方法，该方法通过G网络中的词嵌入层以及双向LSTM的深度学习模型学习到句子的上下文语义特征，能够找到对句子情感极性判断影响比较大的词，提出出来作为有用信息。相应提出对句子极性判断不那么重要的词作为无用信息。通过将有用信息和无用信息输入到C网络中进行学习，使得分类器能够有较高的辨识度。通过在相应数据集上的实验表明，本发明专利技术对比之前的情感分类方法，有较大提升。

A deep learning emotion classification method based on feature extraction

The invention provides a deep learning emotion classification method based on feature extraction. The method learns the context semantic features of sentences through the word embedding layer in G network and the two-way LSTM deep learning model, and can find words that have great influence on the judgement of sentence emotional polarity, and put forward them as useful information. Correspondingly, the words that are not so important in judging the polarity of sentences are put forward as useless information. By inputting useful information and useless information into the C network for learning, the classifier can have a high degree of recognition. Experiments on the corresponding data sets show that the method has a great improvement compared with the previous emotional classification methods.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征提取的深度学习情感分类方法
本专利技术涉及计算机应用技术、自然语言处理领域，更具体地，涉及一种基于特征提取的深度学习情感分类方法。
技术介绍
近年来，随着互联网的快速发展，网络已经成为人们交流和获取信息的主要途径，在这个过程中，，互联网上积累了大量的文本数据，而情感分析技术则是旨在于从这些文本中挖掘用户针对某个事物表达的情感倾向和观点，为进一步的具体应用比如市场决策等提供基础支持，因此情感分析技术无论是对学术界还是工业界都表现除了极大的吸引力。而句子级别的情感分析就是判断文章中句子的情感倾向性，在情感分析中具有非常关键的作用。常用的分析方法主要包括基于情感词典的方法和基于机器学习的方法。基于情感词典的方法是通过寻找句子中情感词汇出现的数量以及这些词汇的情感极性来综合评估整个句子的情感倾向，该方法简单直接，能够使初学者快速了解情感分析的过程。但是缺点也很明显：1.对情感词典的依赖性太强，需要一个尽可能完整的“好”的情感词典准确识别句子中的情感词汇，才能提高句子的情感极性判断的准确率。2.不能准确识别结构复杂的句子的情感极性，因为句子的情感极性并不完全等于其构成词汇情感的简单组合。未解决上述问题，目前很多研究工作主要采用机器学习的情感分析方法。它是把句子情感分析当成一个普通的分类问题，从已标注好情感极性的训练样本中选取大量有助于情感分类的特征，然后训练分类器模型预测未知句子的情感极性。它比基于情感词典方法的分类效果更好，准确度更高。但是传统的机器学习比如最近邻KNN、贝叶斯、支持向量机SVM等，准确率并不算很高，没有达到人们预期的目标。对于上述出现...

【技术保护点】
1.一种基于特征提取的深度学习情感分类方法，其特征在于，包括以下步骤：S1：建立用于生成语义特征以及特征提取的深度学习网络模型G；S2：建立基于有用信息和无用信息的情感分类器C；S3：模型训练与测试。

【技术特征摘要】
1.一种基于特征提取的深度学习情感分类方法，其特征在于，包括以下步骤：S1：建立用于生成语义特征以及特征提取的深度学习网络模型G；S2：建立基于有用信息和无用信息的情感分类器C；S3：模型训练与测试。2.根据权利要求1所述的基于特征提取的深度学习情感分类方法，其特征在于，所述步骤S1的具体过程是：S11：建立G网络的第一层词向量层，将预处理后的句子中的每个单词表示成为一个低纬、稠密的实数向量，在大规模无标注语料上训练好的词向量模型Glove，将整个句子表示成词向量矩阵X＝[x1,…,xt,…,xn]，其中n是句子长度，向量矩阵X的维度是300维；S12：建立G网络的第二层双向LSTM层，在这一层中让模型学习到整个句子的上下文信息，在每一个时间步t，每个细胞单元的输入分别是句子中第t个词向量xt以及t-1时刻细胞的隐藏层输出hft-1；前向LSTM得到矩阵Hf＝[hf1,…,hft,…hfn]，同理，后向LSTM得到矩阵Hb＝[hb1,…,hbt,…hbn]；S13：建立G网络的第三层特征矩阵求和层，将双向LSTM层所输出的两个矩阵Hf以及Hb进行同维度左右求和H＝Hf+Hb，以此得到最后的语义特征表示矩阵H＝[h1,h2,…,hn]。3.根据权利要求2所述的基于特征提取的深度学习情感分类方法，其特征在于，所述步骤S2的具体过程是：S21：建立C网络的第一层输入层，将G网络中提取出来的有用信息和无用信息作为C网络的输入，并且在模型训练以及模型测试的时候，以不同的方式输入分类器中进行学习；S22：建立C网络的第二层隐藏层，在这一层包含三个隐藏层，使用的激活函数是ReLU函数，将最后一个隐藏层作为这一层的输出；S23：建立C网络的最后一层输出层，将上一层的隐藏层输出由softmax映射到三个分类类别上，对应情感分类的积极，消极，中立；可以根据输出在三个类别上的数值大小判断最后的情感极性，输出结果。4.根据权利要求3所述的基于特征提取的深度学习情感分类方法，其特征在于，所述步骤S3的具体过程是：S31：将数据集分为训练数据以及测试数据...

【专利技术属性】
技术研发人员：黄汉栋，印鉴，高静，
申请(专利权)人：中山大学，广东恒电信息科技股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人