一种基于词向量和情感词性的情感分类方法技术

技术编号:26223189 阅读:30 留言:0更新日期:2020-11-04 10:55
本发明专利技术公开了一种基于词向量和情感词性的情感分类方法,具体为:从网络爬取若干句评语,并分为训练集和测试集;将训练集每句评语中包含的非文本信息去除;对仅包含文本信息的训练集的每句评语进行词性分类,区分出非情感相关词和情感相关词,同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类;采用CBOW模型对非情感相关词进行训练,得到包含语义信息的词向量;采用改进的CBOW模型对情感相关词进行训练,得到包含语义信息和情感信息的词向量;利用上述词向量来训练分类器,得到训练好的分类器;利用训练好的分离器对测试集词向量进行情感分类,得到分类结果。本发明专利技术在情感分析任务时可以减少了人工干预并丰富了词向量包含的信息。

【技术实现步骤摘要】
一种基于词向量和情感词性的情感分类方法
本专利技术涉及一种基于词向量和情感词性的情感分类方法,属于情感分类

技术介绍
近年来,随着互联网的普及和不断发展,人们享受着越来越便捷的电子商务、网络社交、电子娱乐等服务。随着网络越来越融入人们的生活当中,每一个网络用户都越来越积极地在网络平台发表对于文化娱乐产品、商品、新闻、事件等事务的观点和看法,也就产生了大量的有价值的评论信息。而随着网上评价信息的爆炸式增长,除了以往通过纸媒、电视、亲朋推荐等方式,越来越多的人在购物、旅游、娱乐前选择通过上网来获取相关信息,来对消费目标有一个提前的认知。因此,通过情感分析的方法帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理这一任务变得越来越重要。情感分析目标是预测一句话、一段文字或一篇文章的情感信息,比如“积极”或者“消极”。情感分析是自然语言处理领域中最受关注的研究课题之一,在自然语言处理任务的各个方面都得到了广泛的应用。如何在诸如社会媒体分析、电子商务、网络社交等方面应用情感分析,并获得有效的信息是研究人员的一项重要的持续性的课题。近年来,对短文本的情感分析获得了更多的关注。现有的方法大多都利用人工标注的情感极性来构建情感分类,主要工作是设计有效的特征获取更好的性能。比如,Mohanmmad等人在对推特进行情感分类中尝试使用不同情感词典和人工加注的特征来构建最高执行系,AKJain和YPandey等人通过使用斯坦福POS词性标记器标记句子中赐予的词性,并选取对句子情感极性影响较大的词性所对应的词语,以此得到整个句子的情感极性。但是,特征选取需要过多的人工时间,所以,研究如何从数据中发现信息,减少学习算法对与特征提取的依赖成了一个新的研究方向。通过学习文档,获得密集的单词表示或词向量成了人们研究的新方向。一些人通过将词向量应用于CNN和RNN等深度学习,进行情感分类的工作。Mikolov等人提出CBOW(ContinuousBagofWords)和Skip-Gram(ContinuousSkip-Gram)两个神经网络语言模型,总称为Word2Vec。能够在较短时间内,通过大量无标注的语料库学习到高质量的词向量。Tang等人提出三种神经网络结构,将情感信息引入损失函数学习具有特定情感的词向量,在Twitter英文情感分析中取得不错的效果这些研究将词向量作为一种预先训练获得的数据并进行微调从而进行情感分析任务。在先前的国内外相关的情感分析方法中,主要是基于词典的分析方法和基于机器学习的方法。采取基于词典的方法需要大量的人工过程,而且由于应用场景不同,单一的词典并不具有足够的泛用性,往往需要建立不同的词典,同时,伴随着网络用语的不断出现,已经建立好的词典还需要再次进行更新,这都使得人工成本大大增加。基于机器学习的方法直接依靠大量数据进行学习,但却缺少监督,学习到的结果不易解读。
技术实现思路
本专利技术所要解决的技术问题是:提供一种基于词向量和情感词性的情感分类方法,加入词性作为参考,在情感词以外加入部分含有情感信息的非情感词共同组成情感分析的加强学习部分。在词向量学习的过程中引入情感作为监督,在词向量学习的过程中加入一层隐藏层,使得词向量在学习过程中可以同时学习到语义信息和情感信息,从而得到更加有利于情感分析的词向量。本专利技术为解决上述技术问题采用以下技术方案:一种基于词向量和情感词性的情感分类方法,包括如下步骤:步骤1,采用网络爬虫技术从网络爬取若干句评语,并将这些评语分为训练集和测试集;步骤2,将训练集的每句评语中包含的非文本信息去除,得到仅包含文本信息的训练集;步骤3,对仅包含文本信息的训练集的每句评语进行词性分类,区分出非情感相关词和情感相关词,同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类;步骤4,采用CBOW模型对每句评语的非情感相关词进行训练,得到包含语义信息的词向量;采用改进的CBOW模型对每句评语的情感相关词进行训练,得到包含语义信息和情感信息的词向量;具体过程为:步骤41,对于输入层,若目标词为非情感相关词,则输入目标词的上、下文{xt-c,...,xt-1,xt+1,...,xt+c},若目标词为情感相关词,则输入目标词的上、下文{xt-c,...,xt-1,xt+1,...,xt+c},以及{et-k,...,et-1,et+1,...,et+k,ep},xt-c,...,xt-1表示目标词前c个至前1个词对应的向量,xt+1,...,xt+c表示目标词后1个至后c个词对应的向量,c表示窗口,et-k,...,et-1表示目标词前k个至前1个情感相关词对应的向量,et+1,...,et+k表示目标词后1个至后c个情感相关词对应的向量,k表示窗口,ep表示目标词所在评语的情感极性向量;步骤42,对于第一隐藏层,计算目标词的预测向量,根据预测向量及目标词对应的向量,应用负采样计算计算语义损失函数;步骤43,若目标词为非情感相关词,则转入步骤45,若目标词为情感相关词,则进入第二隐藏层;步骤44,对于第二隐藏层,计算目标词的预测情感,根据预测情感及目标词所在评语的情感极性向量计算情感损失函数;步骤45,根据语义损失函数和情感损失函数计算总损失函数,若目标词为非情感相关词,则情感损失函数等于0;步骤46,对于输出层,根据总损失函数输出词向量;步骤5,利用包含语义信息的词向量和包含语义信息和情感信息的词向量来训练分类器,得到训练好的分类器;步骤6,对测试集采用步骤2至步骤4相同的方法进行训练,得到测试集对应的词向量,利用训练好的分离器对词向量进行情感分类,得到分类结果。作为本专利技术的一种优选方案,步骤1所述网络爬虫技术具体为聚焦网络爬虫技术。作为本专利技术的一种优选方案,步骤2所述非文本信息包括表情符号、图片或网页链接中的至少一种。作为本专利技术的一种优选方案,步骤3所述对仅包含文本信息的训练集进行词性分类,区分出非情感相关词和情感相关词,具体过程为:将仅包含文本信息的训练集中的动词、形容词和名词作为情感相关词,其他词作为非情感相关词。作为本专利技术的一种优选方案,步骤3所述根据该评语对应的星级、评分或评价对该评语的情感词性进行分类,具体过程为:若该评语的星级低于三星或评分低于60分或评价为差评,则该评语的情感词性为负面;若该评语的星级不低于三星或评分不低于60分或评价为好评,则该评语的情感词性为正面。作为本专利技术的一种优选方案,步骤44所述目标词的预测情感,计算公式为:其中,he为预测情感极性向量,k表示窗口,et表示目标词对应的向量,et-j、et+j分别表示目标词的前j个、后j个情感相关词对应的向量。作为本专利技术的一种优选方案,步骤44所述情感损失函数,计算公式为:其中,Le表示情感损失函数,nege表示负采样的情感极性种类,σ表示sigmod函数,eb表示第b个负本文档来自技高网
...

【技术保护点】
1.一种基于词向量和情感词性的情感分类方法,其特征在于,包括如下步骤:/n步骤1,采用网络爬虫技术从网络爬取若干句评语,并将这些评语分为训练集和测试集;/n步骤2,将训练集的每句评语中包含的非文本信息去除,得到仅包含文本信息的训练集;/n步骤3,对仅包含文本信息的训练集的每句评语进行词性分类,区分出非情感相关词和情感相关词,同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类;/n步骤4,采用CBOW模型对每句评语的非情感相关词进行训练,得到包含语义信息的词向量;采用改进的CBOW模型对每句评语的情感相关词进行训练,得到包含语义信息和情感信息的词向量;具体过程为:/n步骤41,对于输入层,若目标词为非情感相关词,则输入目标词的上、下文{x

【技术特征摘要】
1.一种基于词向量和情感词性的情感分类方法,其特征在于,包括如下步骤:
步骤1,采用网络爬虫技术从网络爬取若干句评语,并将这些评语分为训练集和测试集;
步骤2,将训练集的每句评语中包含的非文本信息去除,得到仅包含文本信息的训练集;
步骤3,对仅包含文本信息的训练集的每句评语进行词性分类,区分出非情感相关词和情感相关词,同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类;
步骤4,采用CBOW模型对每句评语的非情感相关词进行训练,得到包含语义信息的词向量;采用改进的CBOW模型对每句评语的情感相关词进行训练,得到包含语义信息和情感信息的词向量;具体过程为:
步骤41,对于输入层,若目标词为非情感相关词,则输入目标词的上、下文{xt-c,...,xt-1,xt+1,...,xt+c},若目标词为情感相关词,则输入目标词的上、下文{xt-c,...,xt-1,xt+1,...,xt+c},以及{et-k,...,et-1,et+1,...,et+k,ep},xt-c,...,xt-1表示目标词前c个至前1个词对应的向量,xt+1,...,xt+c表示目标词后1个至后c个词对应的向量,c表示窗口,et-k,...,et-1表示目标词前k个至前1个情感相关词对应的向量,et+1,...,et+k表示目标词后1个至后c个情感相关词对应的向量,k表示窗口,ep表示目标词所在评语的情感极性向量;
步骤42,对于第一隐藏层,计算目标词的预测向量,根据预测向量及目标词对应的向量,应用负采样计算计算语义损失函数;
步骤43,若目标词为非情感相关词,则转入步骤45,若目标词为情感相关词,则进入第二隐藏层;
步骤44,对于第二隐藏层,计算目标词的预测情感,根据预测情感及目标词所在评语的情感极性向量计算情感损失函数;
步骤45,根据语义损失函数和情感损失函数计算总损失函数,若目标词为非情感相关词,则情感损失函数等于0;
步骤46,对于输出层,根据总损失函数输出词向量;
步骤5,利用包含语义信息的词向量和包含语义...

【专利技术属性】
技术研发人员:夏正友郭嘉欣滕渊涛
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1