The invention proposes a sentence level sentiment classification method based on weak supervised deep learning, which mainly solves the problem that the existing technology can not accurately predict sentence emotion semantics and low classification accuracy. The solution is: 1. design to sentence sentiment classification using a large number of weak labeling comments sentence the depth of the neural network WDE LSTM; 2. of the depth of neural network model WDE LSTM coarse, namely the use of sentence three tuple training standards, make the same annotation sentences are close to each other, different sentences marked decrease away from each other. Wrong sentences in mobile training appeared in the process; 3. of the depth of the neural network WDE LSTM fine tuning; 4. of the depth of the trained neural network model to test the classification result output sentence, the depth of God designed by the invention by the network stability is strong, can deal with time series data more naturally, improve the accuracy of the sentence semantic classification, can be used for electronic commerce.
【技术实现步骤摘要】
基于弱监督深度学习的句子级情感分类方法
本专利技术属于计算机处理
,特别涉及一种句子级情感分类方法,可用于电子商务。
技术介绍
随着电子商务的快速发展,人们习惯了在网上消费并且在商家的评论网站上面写下他们关于购物经验的评论,这些评论的内容对于未来的顾客做决定和商家提高他们的产品质量来说都是非常有价值的资源。然而,随着评论的数量快速增长,人们面临着一个严重的信息过载的问题。为了缓解这个问题,人们提出了许多意见挖掘技术,例如观点摘要,民意调查和比较分析。关键的挑战在于如何准确的预测评论句子的情感倾向。所谓的情感分类是指对用户发出的主观性文本进行分析和挖掘,判断文本中所包含的情感信息。流行的情感分类方法一般归为两类:(1)基于词典的方法,(2)机器学习方法。基于词典的方法通常首先构造观点词的情感词典,例如喜欢或讨厌,然后在出现意见单词和现有的句法知识的基础上设计分类规则。抛开效率不谈,这种方法需要在词典构建和规则设计上面进行大量的工作。此外,基于词典的方法不能很好的处理隐含的意见,即客观的陈述例如“一周前我买了个床垫,今天塌陷了”,这也是一种很重要的意见形式。事实信息通常比主观感受更有帮助。基于词典的方法只能以特殊的方法处理隐含的意见。最初的基于机器学习的情感分类工作应用了流行的机器学习算法,例如朴素贝叶斯。之后,为了获得更好的分类性能,在此方向的大多数研究都是围绕着特征工程开展,并且已经探索出了不同种的特征,例如N-Gram,Part-of-speech(POS)信息和句子关系等。但是特征工程也十分耗费人力成本,并要求设计者有丰富的领域知识,而且适合一个 ...
【技术保护点】
一种基于弱监督深度学习的句子级情感分类方法,其特征在于,包括:(1)设计能够利用大量弱标注的评论句子来进行句子情感分类的深度神经网络WDE‑LSTM,其中:第一层为输入层,第二层为长短期记忆层,第三层为最大池化层,第四层为隐藏层,第五层为嵌入层,第六层为分类层;(2)对设计好的深度神经网络模型WDE‑LSTM进行训练:2a)定义评级信息二值化后的句子为弱标注句子,并根据句子的情感语义人工标注了一些句子,再通过弱标注句子从输入层训练到嵌入层,实现对深度神经网络WDE‑LSTM的粗调;2b)用弱标注句子训练了一个能捕捉数据情感分布的嵌入层之后,在嵌入层上加入分类层,再用人工标注的句子从输入层训练到分类层,以实现对深度神经网络WDE‑LSTM的精调,最终得到一个二分类模型,即将分类的句子情感语义分为积极和消极两类;(3)将步骤(2)训练好的深度神经网络模型,用30%的人工标注的句子生成的数据集作为测试集,把该测试集输入到二分类模型中,即从输入层输入直到分类层,分类层最后输出的结果即为句子的情感语义类别。
【技术特征摘要】
1.一种基于弱监督深度学习的句子级情感分类方法,其特征在于,包括:(1)设计能够利用大量弱标注的评论句子来进行句子情感分类的深度神经网络WDE-LSTM,其中:第一层为输入层,第二层为长短期记忆层,第三层为最大池化层,第四层为隐藏层,第五层为嵌入层,第六层为分类层;(2)对设计好的深度神经网络模型WDE-LSTM进行训练:2a)定义评级信息二值化后的句子为弱标注句子,并根据句子的情感语义人工标注了一些句子,再通过弱标注句子从输入层训练到嵌入层,实现对深度神经网络WDE-LSTM的粗调;2b)用弱标注句子训练了一个能捕捉数据情感分布的嵌入层之后,在嵌入层上加入分类层,再用人工标注的句子从输入层训练到分类层,以实现对深度神经网络WDE-LSTM的精调,最终得到一个二分类模型,即将分类的句子情感语义分为积极和消极两类;(3)将步骤(2)训练好的深度神经网络模型,用30%的人工标注的句子生成的数据集作为测试集,把该测试集输入到二分类模型中,即从输入层输入直到分类层,分类层最后输出的结果即为句子的情感语义类别。2.根据权利要求1所述的方法,其特征在于,步骤(1)设计的深度神经网络WDE-LSTM,其各层的功能如下:输入层,用于将输入的句子用单词序列表示,再将单词序列中的每个单词用一个词向量表...
【专利技术属性】
技术研发人员:赵伟,管子玉,黄若谷,王泉,沈玉龙,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。