一种基于情感词典学习的文本情感分析方法和系统技术方案

技术编号:16472528 阅读:80 留言:0更新日期:2017-10-29 00:13
本发明专利技术特别涉及一种基于情感词典学习的文本情感分析方法和系统。方法包括以下步骤:对初始文本数据进行规范化处理,生成预处理文本数据,并将预处理文本数据聚类到预设领域;采用基于种子情感词典的情感词语发现方法,形成预设领域的专有情感词典;根据专有情感词典对预处理文本数据进行检索,获取目标文本数据作为对应预设领域的初始训练语料,并形成多分类器对输入的待分类文本进行分类。本发明专利技术减少了人力成本,避免了由单一分类器导致的过拟合问题,同时将文本相关领域纳入考虑,提高了对文本进行情感分析的准确性。

Text sentiment analysis method and system based on sentiment dictionary learning

The invention particularly relates to a text sentiment analysis method and system based on emotion dictionary learning. The method comprises the following steps: normalizing the initial text data, generate preprocessed text data, and the pretreatment of text data clustering to the default domain; the discovery method based on sentiment dictionary seed emotional words, form the preset field proprietary sentiment dictionary; according to the proprietary emotion dictionary pretreatment of text data retrieval, target acquisition as the text data corresponding to a preset field of initial training corpus, and the formation of multi classifier for classifying text input. The invention reduces the labor cost, avoids the overfitting problem caused by a single classifier, and takes the text related fields into consideration, so as to improve the accuracy of the sentiment analysis of the text.

【技术实现步骤摘要】
一种基于情感词典学习的文本情感分析方法和系统
本专利技术自然语言处理领域,尤其涉及一种基于情感词典学习的文本情感分析方法和系统。
技术介绍
Web2.0时代,每一个网民都成了互联网的信息发布源。各种用途的信息发布平台应运而生,诸如FaceBook、校内网、新浪微博等,供用户发表、获取、分享各种信息。由于互联网用户基数大,每个信息发布平台信息发布平台平均每天产生的信息量也大,所以互联网每天产生的信息量也巨大。而情感分析又称情感挖掘、意见挖掘,是对文本进行处理、分析、归纳并推理,得出文本的情感色彩的过程,基于互联网每天产生的巨大信息量,对互联网数据进行挖掘和情感分析的难度也非常大。在文本情感分析方面,外国学者主要是针对Twitter上的短文本信息作为语料进行分析。比如国外学者利用网站带情感标签的文本作为训练语料,采用文本抽象特征训练各种分类器进行主客观分类和情感极性分类。中文文本情感极性分析近来呈现高速发展的趋向,然而中文文本的复杂性比英文文本的复杂性要高得多,所以中文文本的分词质量往往对最后的分类结果影响很大。除此之外,由于中文的信息熵更大,中文文本内容丰富多彩,有很多网络词和新词加入其中,在研究工作中都是挑战。就情感分析而言,有基于规则和基于学习的方法两种类别。基于规则的方法,一般由人工定义的规则库和情感词典组成,这种方法效果一般不错,但是人工工作量很大;基于学习的方法,大多是基于统计学习的方法,使用人工标注的语料进行模型训练,这种方法工作量较之前者稍低,但是效果不太理想。上述情感分析的各类方法中,人工标注处理的人力和物力成本很大且没有根据领域进行分领域处理,因此情感分析效果都不理想。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于情感词典学习的文本情感分析方法和系统。第一方面,本专利技术实施例提供了一种基于情感词典学习的文本情感分析方法,包括以下步骤:步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应领域的分类器;步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。上述方案的有益效果在于:本专利技术的基于情感词典学习的文本情感分析方法通过对情感分析分领域进行处理,不断自动扩充不同领域对应的情感词典,同时使用多分类器结合的方式对输入文本进行情感分析。与现有技术相比,本专利技术具有以下优点和有益效果:1、本专利技术可以自动建立每个领域的专有情感词典,避免了全由人工建立的成本问题;2、本专利技术建立了每个领域的专有情感词典,并将所述专有情感词典和基础情感词典组成联合情感词典,使情感词更加准确和全面;3、使用少量人工筛选的原始语料作为训练数据,减少人力成本;4、使用多分类器对输入文本进行情感分析,防止过拟合,使分析结果更加准确。进一步的,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤5,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。进一步,步骤1的所述规范化处理包括对所述初始文本数据进行去非文字符号处理和/或分隔符清理;所述步骤2中,采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。进一步,所述步骤3具体包括:计算所述预处理文本数据中每个词语的词向量,形成词向量表;计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。进一步,所述步骤5具体为:对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,然后基于Adaboost迭代算法进行训练,并组合成每个预设领域对应的强分类器。第二方面,本专利技术提供了一种基于情感词典学习的文本情感分析系统,包括预处理模块、聚类模块、第一生成模块、第二生成模块、训练模块和分类模块,所述预处理模块用于采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;所述聚类模块用于采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;所述第一生成模块用于将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;所述第二生成模块用于对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;所述训练模块用于针对不同预设领域,使用每个预设领域的初始训练语料训练出每个预设领域对应的分类器;所述分类模块用于获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。上述方案的有益技术效果在于:本专利技术的基于情感词典学习的文本情感分析系统通过对情感分析分领域进行处理,不断自动扩充不同领域对应的情感词典,同时使用多分类器结合的方式对输入文本进行情感分析。与现有技术相比,本专利技术可以自动建立每个领域的专有情感词典,避免了全由人工建立的成本问题;同时本专利技术建立了每个领域的专有情感词典,并将所述专有情感词典和基础情感词典组成联合情感词典,使情感词更加准确和全面;除此以外,本专利技术使用少量人工筛选的原始语料作为训练数据,减少人力成本,使用多分类器对输入文本进行情感分析,防止过拟合,使分析结果更加准确。进一步,还包括修正模块,所述修正模块用于分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并驱动所述预处理模块、所述聚类模块、所述第一生成模块、所述第二生成模块、所述训练模块和所述分类模块,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新本文档来自技高网
...
一种基于情感词典学习的文本情感分析方法和系统

【技术保护点】
一种基于情感词典学习的文本情感分析方法,其特征在于,包括以下步骤:步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应预设领域的分类器;步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。

【技术特征摘要】
1.一种基于情感词典学习的文本情感分析方法,其特征在于,包括以下步骤:步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应预设领域的分类器;步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。2.根据权利要求1所述的基于情感词典学习的文本情感分析方法,其特征在于,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤5,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。3.根据权利要求1或2所述的基于情感词典学习的文本情感分析方法,其特征在于,步骤1的所述规范化处理包括对所述初始文本数据进行去非文字符号处理和/或分隔符清理;以及所述步骤2中,采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。4.根据权利要求3所述的基于情感词典学习的文本情感分析方法,其特征在于,所述步骤3具体包括以下步骤:计算所述预处理文本数据中每个词语的词向量,形成词向量表;计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。5.根据权利要求4所述的基于情感词典学习的文本情感分析方法,其特征在于,所述步骤5具体为:对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,然后基于Adaboost迭代算法进行训练,并组合成每个预设领域对应的强分类器。6.一种基于情感词典学习的文本情感分析系统,其特征在于,包括预处理模块、聚类模块、第一生成模块、第二生成模块、训练模块和分类...

【专利技术属性】
技术研发人员:姬东鸿柳宜江周启楫
申请(专利权)人:武汉红茶数据技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1