一种基于情感词嵌入的细粒度情绪分析改进方法技术

技术编号：21453980 阅读：34 留言：0更新日期：2019-06-26 04:47

本发明专利技术公开了一种基于情感词嵌入的细粒度情绪分析改进方法，包括：文本数据集的获取、人工标注及预处理。计算文本数据集中每个单词对应的语义词向量。获取情感词集合。计算训练数据集中每个单词对应的一组情感词组。计算训练数据集中每个单词对应的情绪词向量。构建训练数据集中每个单词对应的情感词嵌入。训练分类器得到细粒度情绪分析模型。本发明专利技术利用先验情感知识结合词嵌入模型，并构造适用于细粒度情绪分析的情感词嵌入进行情绪分析。本发明专利技术可以更好地识别词语级别的情绪信息，更加精准、细粒度的描述用户的情绪，可以用于细粒度的情绪分析任务，例如：用户的消费习惯分析，用户对商品的评论分析等。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于情感词嵌入的细粒度情绪分析改进方法
本专利技术属于中文文本情绪分析
，特别涉及一种针对中文短文本如微博、网络评论的基于情感词嵌入的细粒度情绪分析改进方法细粒度情绪分析方法。
技术介绍
互联网发展如此迅猛，每天有数百万人使用社交网络，如微博、贴吧等在线平台表达他们对产品、服务、新闻、事件等的看法。分析用户所表达的意见或者观点对营销专业人员和研究人员来说非常重要。由于微博在中国社会的普及，微博文本的情绪分析变得越来越重要。自2013年起，中国计算机学会(简称CCF)在第二届自然语言处理与中文计算会议(简称NLPCC)中专门设立了中文微博情感分类评测任务，从此之后吸引了国内外众多研究人员和研究机构参与评测。2018年该会议已成功举办七届，为中文微博情绪分析做出了巨大贡献。微博与电影评论等传统长文本的情绪分析有若干不同之处。首先，它不超过140个中文单词。内容极为的简短但是所包含的信息非常丰富。其次，中文在某种程度上与英语有很大的不同，如语法或句子结构，所以英文文本如twitter的情绪分析研究成果难以适用于中文微博分析。第三，微博中使用的词比正式文本更加随意。例如，网络流行词有“麻麻”、“跪了”。“跪了”原本指传统上没有情感极性的行为，但现在它等于一种令人沮丧的情绪。第四，这些网络流行词中的一些词由于其非正式性，甚至具有不同的意义和不同的情绪。情绪分析是指从包含人们意见的潜在信息的原始数据集中识别主观信息的过程，通常包括对文本进行积极、消极、中性的识别。专利200910219161.9根据不同主题文本的语言表达方式估计主题语言模型，计算待处理文本的...

【技术保护点】
1.一种基于情感词嵌入的细粒度情绪分析改进方法，其特征在于，包括以下步骤：步骤一：文本数据集的获取、人工标注及预处理：首先，获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集，并对文本数据集中的单个句子进行人工标注；然后，对文本数据集进行预处理，预处理后的文本数据集被表示为一个个单词的集合；步骤二：计算文本数据集中每个单词对应的语义词向量：搜集用于训练词向量模型的大规模语料，并利用词向量工具对该语料进行训练得到词向量模型，然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示，进而得到每个单词对应的一个语义词向量；步骤三：获取情感词集合：搜集中文情感词典，并基于步骤二中得到的语义词向量，逐一筛选符合条件的情感词，得到筛选后的情感词集合；步骤四：计算训练数据集中每个单词对应的一组情感词组：基于步骤三中得到的情感词集合，为步骤一中训练数据集的每个单词选取一组对应的情感词组，该情感词组在语义上和情感极性上都与该单词最为相似；步骤五：计算训练数据集中每个单词对应的情绪词向量：基于步骤四中得到的每个单词对应的一组情感词组，对该情感词组的语义词向量进行修正，并在该修正后的语义词向量基础上...

【技术特征摘要】
1.一种基于情感词嵌入的细粒度情绪分析改进方法，其特征在于，包括以下步骤：步骤一：文本数据集的获取、人工标注及预处理：首先，获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集，并对文本数据集中的单个句子进行人工标注；然后，对文本数据集进行预处理，预处理后的文本数据集被表示为一个个单词的集合；步骤二：计算文本数据集中每个单词对应的语义词向量：搜集用于训练词向量模型的大规模语料，并利用词向量工具对该语料进行训练得到词向量模型，然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示，进而得到每个单词对应的一个语义词向量；步骤三：获取情感词集合：搜集中文情感词典，并基于步骤二中得到的语义词向量，逐一筛选符合条件的情感词，得到筛选后的情感词集合；步骤四：计算训练数据集中每个单词对应的一组情感词组：基于步骤三中得到的情感词集合，为步骤一中训练数据集的每个单词选取一组对应的情感词组，该情感词组在语义上和情感极性上都与该单词最为相似；步骤五：计算训练数据集中每个单词对应的情绪词向量：基于步骤四中得到的每个单词对应的一组情感词组，对该情感词组的语义词向量进行修正，并在该修正后的语义词向量基础上，构建情绪词向量；步骤六：构建训练数据集中每个单词对应的情感词嵌入：基于步骤二中单词对应的语义词向量，以及步骤五中单词对应的情绪词向量，构建该单词的情感词嵌入，最后得到训练数据集的情感词嵌入；步骤七：训练分类器得到细粒度情绪分析模型：将训练数据集的情感词嵌入作为分类器的输入，训练分类器，得到细粒度情绪分析模型。2.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法，其特征在于，所述的步骤一，具体为采用如下步骤：A、通过爬虫采集微博数据作为文本数据集；B、人工对所有文本数据集中的句子进行情绪标注，标注的情绪标签分为七大类：“好、乐、哀、怒、惧、恶、惊”，标注后每个句子对应一个情绪标签，用于后续分类器的训练和测试集的精度验证；C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理，其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。3.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法，其特征在于，所述的步骤二，具体为采用如下步骤：A、首先，搜集大规模中文语料作为训练词向量模型的语料，并且进行数据预处理，预处理过程同步骤一中的预处理；B、然后，使用Python的Gensim软件包，利用Word2Vec工具对经过预处理后的大规模语料进行训练，得到词向量模型；C、接下来，利用该词向量模型对步骤一中得到的每个单词进行词向量表示，并将该词向量作为单词的语义词向量，使单词集合被表示为一个语义词向量集合，每个单词对应一个语义词向量。4.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法，其特征在于，所述的步骤三，具体为采用如下步骤：A、首先，搜集中文情感词典；B、然后，对该情感词典中的情感词进行逐一筛选，若某个情感词经过语义词向量表示后，在步骤二中得到的语义词向量集合中找不到对应的语义词向量，则将其删除，得到经过筛选后的情感词集合。5.根据权利要求...

【专利技术属性】
技术研发人员：畅帅，李芳芳，毛星亮，施荣华，石金晶，胡超，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人