一种基于词向量与词性的情感分析方法技术

技术编号：19778394 阅读：24 留言：0更新日期：2018-12-15 11:20

本发明专利技术公开了一种基于词向量与词性的情感分析方法，包括：获取原始微博语料库，并将原始微博语料库中的中文语料信息与语料标签信息进行匹配；去除微博文本对情感分析没有积极作用或造成干扰的特殊符号；将预处理后的文本根据词语的词性进行处理，构成原始特征集合；计算微博数据中词语的TF‑IDF值，再根据TF‑IDF提取特征词；计算词语的TF‑IDF值，将词典中每条数据都由一个词语及其对应的词向量组成；将特征词与词向量字典结合，组成特征词与词向量字典；计算每一条文本微博数据的向量，最后得到所有微博数据的向量；根据训练数据建立各自的微博数据情感分类模型，进行情感分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量与词性的情感分析方法
本专利技术涉及自然语言处理、数据挖掘、文本分析、计算语言学和机器学习领域，涉及文本预处理技术、特征提取技术、情感分析技术和机器学习分类技术，尤其是一种基于词向量与词性的情感分析方法。
技术介绍
目前，中文微博情感分析方法可以分为两大类：基于情感词典的微博情感分析方法和基于机器学习的微博情感分析方法。基于情感词典的微博情感分析方法主要根据情感词典，将一条微博语句的情感极性值之和作为该条语句的情感极性，可分为词语特征级、句子级情感判别，该方法主要的优点是粒度细、分析准确。但受到自然语言处理技术及相关抽取技术的限制，对语句中各语义成分及其对应关系的不能很好的识别。在中文有着丰富的语义表达，很多情感都是隐含的，比如：“我昨天吃了这道菜，今天就拉肚子了”。这句话没有一个情感词，但表达的是消极的情绪。所以基于情感词典的分析方法忽视了非情感词语对情感分析结果的影响，因而无法进行准确的分类。基于机器学习的微博情感分类方法多使用分类模型如：支持向量机(SupportVectorMachine，SVM)、朴素贝叶斯、最大熵模型等，选取文本中有利于情感极性分类的词或短语等作为特征，训练集语料的大小和质量、特征提取的好坏将直接决定分类器的好坏。特征工程是此类方法的核心，情感分类任务中常用到的特征有n-gram(大词汇连续语音识别中常用的一种语言模型)特征、句法特征、TF-IDF(一种用于信息检索与数据挖掘的常用加权技术)特征等。其中，TF-IDF特征提取方法是通过TF-IDF模型就能将一个文本进行向量化。优点是简单快速，结果比较符合实际情况。但...

【技术保护点】
1.一种基于词向量与词性的情感分析方法，其特征在于，所述方法包括以下步骤：获取原始微博语料库，并将原始微博语料库中的中文语料信息与语料标签信息进行匹配，每条语料信息对应一个标签信息；去除微博文本对情感分析没有积极作用或造成干扰的特殊符号；将预处理后的文本根据词语的词性进行处理，筛选出需要的形容词、动词和否定词，构成原始特征集合；计算词频，然后计算逆向文件频率，最后计算微博数据中词语的TF‑IDF值，再根据TF‑IDF提取特征词；用Word2Vec处理语料计算词语的TF‑IDF值，将词典中每条数据都由一个词语及其对应的词向量组成；将特征词与词向量字典结合，组成特征词与词向量字典；将每条文本微博数据的文本的所有特征词组合，生成每一条文本微博数据的向量，最后得到所有微博数据的向量；根据训练数据建立各自的微博数据情感分类模型，分别使用朴素贝叶斯分类器、最近邻分类器、随机森林分类器和支持向量机分类器进行情感分析。

【技术特征摘要】
1.一种基于词向量与词性的情感分析方法，其特征在于，所述方法包括以下步骤：获取原始微博语料库，并将原始微博语料库中的中文语料信息与语料标签信息进行匹配，每条语料信息对应一个标签信息；去除微博文本对情感分析没有积极作用或造成干扰的特殊符号；将预处理后的文本根据词语的词性进行处理，筛选出需要的形容词、动词和否定词，构成原始特征集合；计算词频，然后计算逆向文件频率，最后计算微博数据中词语的TF-IDF值，再根据TF-IDF提取特征词；用Word2Vec处理语料计算词语的TF-IDF值，将词...

【专利技术属性】
技术研发人员：刘春凤，张妍，于健，喻梅，徐天一，曹雅茹，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人