一种基于词向量和情感词性的情感分类方法技术

技术编号：26223189 阅读：30 留言：0更新日期：2020-11-04 10:55

本发明专利技术公开了一种基于词向量和情感词性的情感分类方法，具体为：从网络爬取若干句评语，并分为训练集和测试集；将训练集每句评语中包含的非文本信息去除；对仅包含文本信息的训练集的每句评语进行词性分类，区分出非情感相关词和情感相关词，同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类；采用CBOW模型对非情感相关词进行训练，得到包含语义信息的词向量；采用改进的CBOW模型对情感相关词进行训练，得到包含语义信息和情感信息的词向量；利用上述词向量来训练分类器，得到训练好的分类器；利用训练好的分离器对测试集词向量进行情感分类，得到分类结果。本发明专利技术在情感分析任务时可以减少了人工干预并丰富了词向量包含的信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量和情感词性的情感分类方法
本专利技术涉及一种基于词向量和情感词性的情感分类方法，属于情感分类

技术介绍
近年来，随着互联网的普及和不断发展，人们享受着越来越便捷的电子商务、网络社交、电子娱乐等服务。随着网络越来越融入人们的生活当中，每一个网络用户都越来越积极地在网络平台发表对于文化娱乐产品、商品、新闻、事件等事务的观点和看法，也就产生了大量的有价值的评论信息。而随着网上评价信息的爆炸式增长，除了以往通过纸媒、电视、亲朋推荐等方式，越来越多的人在购物、旅游、娱乐前选择通过上网来获取相关信息，来对消费目标有一个提前的认知。因此，通过情感分析的方法帮助用户快速获取、整理和分析相关评价信息，对带有情感色彩的主观性文本进行分析、处理、归纳和推理这一任务变得越来越重要。情感分析目标是预测一句话、一段文字或一篇文章的情感信息，比如“积极”或者“消极”。情感分析是自然语言处理领域中最受关注的研究课题之一，在自然语言处理任务的各个方面都得到了广泛的应用。如何在诸如社会媒体分析、电子商务、网络社交等方面应用情感分析，并获得有效的信息是研究人员的一项重要的持续性的课题。近年来，对短文本的情感分析获得了更多的关注。现有的方法大多都利用人工标注的情感极性来构建情感分类，主要工作是设计有效的特征获取更好的性能。比如，Mohanmmad等人在对推特进行情感分类中尝试使用不同情感词典和人工加注的特征来构建最高执行系，AKJain和YPandey等人通过使用斯坦福POS词性标记器标记句子中赐予的词性，并选取对句子情感极...

【技术保护点】
1.一种基于词向量和情感词性的情感分类方法，其特征在于，包括如下步骤：/n步骤1，采用网络爬虫技术从网络爬取若干句评语，并将这些评语分为训练集和测试集；/n步骤2，将训练集的每句评语中包含的非文本信息去除，得到仅包含文本信息的训练集；/n步骤3，对仅包含文本信息的训练集的每句评语进行词性分类，区分出非情感相关词和情感相关词，同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类；/n步骤4，采用CBOW模型对每句评语的非情感相关词进行训练，得到包含语义信息的词向量；采用改进的CBOW模型对每句评语的情感相关词进行训练，得到包含语义信息和情感信息的词向量；具体过程为：/n步骤41，对于输入层，若目标词为非情感相关词，则输入目标词的上、下文{x

【技术特征摘要】
1.一种基于词向量和情感词性的情感分类方法，其特征在于，包括如下步骤：
步骤1，采用网络爬虫技术从网络爬取若干句评语，并将这些评语分为训练集和测试集；
步骤2，将训练集的每句评语中包含的非文本信息去除，得到仅包含文本信息的训练集；
步骤3，对仅包含文本信息的训练集的每句评语进行词性分类，区分出非情感相关词和情感相关词，同时根据该评语对应的星级、评分或评价对该评语的情感词性进行分类；
步骤4，采用CBOW模型对每句评语的非情感相关词进行训练，得到包含语义信息的词向量；采用改进的CBOW模型对每句评语的情感相关词进行训练，得到包含语义信息和情感信息的词向量；具体过程为：
步骤41，对于输入层，若目标词为非情感相关词，则输入目标词的上、下文{xt-c,...,xt-1,xt+1,...,xt+c}，若目标词为情感相关词，则输入目标词的上、下文{xt-c,...,xt-1,xt+1,...,xt+c}，以及{et-k,...,et-1,et+1,...,et+k,ep}，xt-c,...,xt-1表示目标词前c个至前1个词对应的向量，xt+1,...,xt+c表示目标词后1个至后c个词对应的向量，c表示窗口，et-k,...,et-1表示目标词前k个至前1个情感相关词对应的向量，et+1,...,et+k表示目标词后1个至后c个情感相关词对应的向量，k表示窗口，ep表示目标词所在评语的情感极性向量；
步骤42，对于第一隐藏层，计算目标词的预测向量，根据预测向量及目标词对应的向量，应用负采样计算计算语义损失函数；
步骤43，若目标词为非情感相关词，则转入步骤45，若目标词为情感相关词，则进入第二隐藏层；
步骤44，对于第二隐藏层，计算目标词的预测情感，根据预测情感及目标词所在评语的情感极性向量计算情感损失函数；
步骤45，根据语义损失函数和情感损失函数计算总损失函数，若目标词为非情感相关词，则情感损失函数等于0；
步骤46，对于输出层，根据总损失函数输出词向量；
步骤5，利用包含语义信息的词向量和包含语义...

【专利技术属性】
技术研发人员：夏正友，郭嘉欣，滕渊涛，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人