当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于情感词嵌入的细粒度情绪分析改进方法技术

技术编号:21453980 阅读:34 留言:0更新日期:2019-06-26 04:47
本发明专利技术公开了一种基于情感词嵌入的细粒度情绪分析改进方法,包括:文本数据集的获取、人工标注及预处理。计算文本数据集中每个单词对应的语义词向量。获取情感词集合。计算训练数据集中每个单词对应的一组情感词组。计算训练数据集中每个单词对应的情绪词向量。构建训练数据集中每个单词对应的情感词嵌入。训练分类器得到细粒度情绪分析模型。本发明专利技术利用先验情感知识结合词嵌入模型,并构造适用于细粒度情绪分析的情感词嵌入进行情绪分析。本发明专利技术可以更好地识别词语级别的情绪信息,更加精准、细粒度的描述用户的情绪,可以用于细粒度的情绪分析任务,例如:用户的消费习惯分析,用户对商品的评论分析等。

【技术实现步骤摘要】
一种基于情感词嵌入的细粒度情绪分析改进方法
本专利技术属于中文文本情绪分析
,特别涉及一种针对中文短文本如微博、网络评论的基于情感词嵌入的细粒度情绪分析改进方法细粒度情绪分析方法。
技术介绍
互联网发展如此迅猛,每天有数百万人使用社交网络,如微博、贴吧等在线平台表达他们对产品、服务、新闻、事件等的看法。分析用户所表达的意见或者观点对营销专业人员和研究人员来说非常重要。由于微博在中国社会的普及,微博文本的情绪分析变得越来越重要。自2013年起,中国计算机学会(简称CCF)在第二届自然语言处理与中文计算会议(简称NLPCC)中专门设立了中文微博情感分类评测任务,从此之后吸引了国内外众多研究人员和研究机构参与评测。2018年该会议已成功举办七届,为中文微博情绪分析做出了巨大贡献。微博与电影评论等传统长文本的情绪分析有若干不同之处。首先,它不超过140个中文单词。内容极为的简短但是所包含的信息非常丰富。其次,中文在某种程度上与英语有很大的不同,如语法或句子结构,所以英文文本如twitter的情绪分析研究成果难以适用于中文微博分析。第三,微博中使用的词比正式文本更加随意。例如,网络流行词有“麻麻”、“跪了”。“跪了”原本指传统上没有情感极性的行为,但现在它等于一种令人沮丧的情绪。第四,这些网络流行词中的一些词由于其非正式性,甚至具有不同的意义和不同的情绪。情绪分析是指从包含人们意见的潜在信息的原始数据集中识别主观信息的过程,通常包括对文本进行积极、消极、中性的识别。专利200910219161.9根据不同主题文本的语言表达方式估计主题语言模型,计算待处理文本的语言模型与正负情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本。专利201210088366.X基于正负情感词典判断所有包含主题词的句子的极性,计算结果集合中正面句子极性之和及负面句子极性之和,从而得出整条微博的情感倾向性。专利201310036034.1利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系实现细粒度情感强度量化的统计和计算。专利201410178056.6基于细粒度情感词典,通过对语句结果关系进行判断,将语句拆分为简单句,计算句子情感值从而进行细粒度情感分析。专利201810569997.0对文本中包含的每一个语句构建词嵌入,将构建的每一个词嵌入输入至基于长短记忆网络模型训练得到的文本情感分析模型中,以输出每一个所述词嵌入的情感标签,作为对应于每一个语句的情感标签。目前已有的情绪分析技术,主要分为基于规则的分析、基于无监督的分类和基于有监督的分类。相比较而言最后一类表现较好。基于监督分类技术的有效性依赖于分类任务中使用的特征。常用的特征如词袋(BoW)、词汇和句法特征。词袋特征及其加权方案广泛用于自然语言处理,进而提供文档的简化表示。但是这些方法在情感分析任务中存在一定的局限性:词嵌入通过学习词的低维连续值向量表示实现许多NLP任务,然而传统的词嵌入方法所得到的词表示仅包含文本语料中的语义信息,未考虑文本语料中的情绪信息。而词语之间的情绪信息对于情绪分析来说同样至关重要。因此,本专利技术提出了一种基于情感词嵌入的细粒度情绪分析改进方法,将文本语料的语义信息与情绪信息相结合,共同构建情感词嵌入作为有监督分类器的输入,能够进行情绪的更加细粒度划分,并提高情绪分析的精度。
技术实现思路
本专利技术的目的在于克服上述技术存在的不足,提供一种基于情感词嵌入进行细粒度的情绪分析方法,该方法不仅关注情感的褒义、贬义、中性等极性,而且关注情绪的细粒度类别,如“好、乐、哀、怒、惧、恶、惊”,这是一个更具挑战性的任务,可更好的支撑相关的应用研究,例如:通过对网络上各种信息,特别是主观性文本的倾向性分析可以更好地理解用户的消费习惯、用户对商品的评论分析等。为了实现上述技术目的,本专利技术的技术方案是,一种基于情感词嵌入的细粒度情绪分析改进方法,包括以下步骤:步骤一:文本数据集的获取、人工标注及预处理:首先,获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集,并对文本数据集中的单个句子进行人工标注;然后,对文本数据集进行预处理,预处理后的文本数据集被表示为一个个单词的集合;步骤二:计算文本数据集中每个单词对应的语义词向量:搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量;步骤三:获取情感词集合:搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合;步骤四:计算训练数据集中每个单词对应的一组情感词组:基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似;步骤五:计算训练数据集中每个单词对应的情绪词向量:基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量;步骤六:构建训练数据集中每个单词对应的情感词嵌入:基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入;步骤七:训练分类器得到细粒度情绪分析模型:将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型。所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤一,具体为采用如下步骤:A、通过爬虫采集微博数据作为文本数据集;B、人工对所有文本数据集中的句子进行情绪标注,标注的情绪标签分为七大类:“好、乐、哀、怒、惧、恶、惊”,标注后每个句子对应一个情绪标签,用于后续分类器的训练和测试集的精度验证;C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤二,具体为采用如下步骤:A、首先,搜集大规模中文语料作为训练词向量模型的语料,并且进行数据预处理,预处理过程同步骤一中的预处理;B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型;C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示,并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤三,具体为采用如下步骤:A、首先,搜集中文情感词典;B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤四,具体为采用如下步骤:A、语义筛选:计算步骤一中训练数据集的每个单词与步骤三中的所有情感词的余弦相似度,通过设定相似度阈值,高于该阈值的情感词均归为一组,作为与该单词对应的语义上最为相似的一组情感词组;B、情感筛选:在步骤A得到的与该单词对本文档来自技高网
...

【技术保护点】
1.一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,包括以下步骤:步骤一:文本数据集的获取、人工标注及预处理:首先,获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集,并对文本数据集中的单个句子进行人工标注;然后,对文本数据集进行预处理,预处理后的文本数据集被表示为一个个单词的集合;步骤二:计算文本数据集中每个单词对应的语义词向量:搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量;步骤三:获取情感词集合:搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合;步骤四:计算训练数据集中每个单词对应的一组情感词组:基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似;步骤五:计算训练数据集中每个单词对应的情绪词向量:基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量;步骤六:构建训练数据集中每个单词对应的情感词嵌入:基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入;步骤七:训练分类器得到细粒度情绪分析模型:将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型。...

【技术特征摘要】
1.一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,包括以下步骤:步骤一:文本数据集的获取、人工标注及预处理:首先,获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集,并对文本数据集中的单个句子进行人工标注;然后,对文本数据集进行预处理,预处理后的文本数据集被表示为一个个单词的集合;步骤二:计算文本数据集中每个单词对应的语义词向量:搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量;步骤三:获取情感词集合:搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合;步骤四:计算训练数据集中每个单词对应的一组情感词组:基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似;步骤五:计算训练数据集中每个单词对应的情绪词向量:基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量;步骤六:构建训练数据集中每个单词对应的情感词嵌入:基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入;步骤七:训练分类器得到细粒度情绪分析模型:将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型。2.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤一,具体为采用如下步骤:A、通过爬虫采集微博数据作为文本数据集;B、人工对所有文本数据集中的句子进行情绪标注,标注的情绪标签分为七大类:“好、乐、哀、怒、惧、恶、惊”,标注后每个句子对应一个情绪标签,用于后续分类器的训练和测试集的精度验证;C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。3.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤二,具体为采用如下步骤:A、首先,搜集大规模中文语料作为训练词向量模型的语料,并且进行数据预处理,预处理过程同步骤一中的预处理;B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型;C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示,并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。4.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤三,具体为采用如下步骤:A、首先,搜集中文情感词典;B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。5.根据权利要求...

【专利技术属性】
技术研发人员:畅帅李芳芳毛星亮施荣华石金晶胡超
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1