一种中文长文本情感分析方法技术

技术编号:21799350 阅读:22 留言:0更新日期:2019-08-07 10:33
本发明专利技术公开了一种中文长文本情感分析方法,所述方法包括:步骤1:文本预处理;步骤2:条件随机场抽取核心句;步骤3:对核心句进行情感分析;步骤4:定义核心句的情感极性权值;步骤5:扩展当前情感分析所使用的情感词典;步骤6:得到最终情感分析结果;采用条件随机场抽取核心句,引入句子情感极性权值来分析整篇文章,提高中文长文本情感分析的准确率。

An Emotional Analysis Method for Chinese Long Texts

The invention discloses an emotional analysis method for Chinese long text, which includes: step 1: text preprocessing; step 2: conditional random field extraction of core sentences; step 3: emotional analysis of core sentences; step 4: defining the emotional polarity weight of core sentences; step 5: expanding the emotional words currently used in emotional analysis. Step 6: Get the final affective analysis results; use conditional random field to extract the core sentences, and introduce the sentence emotional polarity weight to analyze the whole article, so as to improve the accuracy of affective analysis of Chinese long text.

【技术实现步骤摘要】
一种中文长文本情感分析方法
本专利技术涉及自然语言处理领域,具体地,涉及一种中文长文本情感分析方法。
技术介绍
在过去的几十年中,人们的生活越来越离不开互联网,随着“互联网+”的发展,许多传统行业和互联网相结合,互联网也在逐渐改变人民的生活方式,现在的用户已经从以前单纯的从网络获取信息的索取者变为了网络信息的创造者,人们通过微博、朋友圈和论坛等发表着自己的想法观点。近几年互联网的信息也呈现指数性的增长。这些信息往往存在巨大的社会和经济效益,对于个人来说,了解他人的观点可以帮助他们在购物上作出选择或者学习自己未了解的知识;对于商家或者组织来说,可以帮助他们了解市场形势来及时调整战略。但是这些海量信息同时也会造成互联网舆情问题。社会各类信息通过互联网的传播,和以往相比传播的途径更加丰富、传播的效率更加高、覆盖的范围也更加全面了,如果不进行合理的监控与管理,极易在社会上造成不良的影响。而舆情分析的核心同样是情感分析。文本情感分析的结果通常分为三种,即积极、中性和消极,也可以看成一个三分类问题。为了实现海量互联网文本的情感分析,研究者们通过统计的方法、机器学习以及神经网络等方法来自动化分析文本的情感倾向性。目前文本情感分析对于微博等短文本的研究较多,而长文本的研究相对匮乏,而且中文不同于英文有许多复杂的句式,所以在长文本的情感分析上难度更大。目前情感分析的研究主要分为两个方向,一个是基于情感词典的情感分析算法,一个是基于机器学习的情感分析算法。在情感词典的情感分析中,情感词典的质量直接影响到最终的情感分析结果,所以设计一个高质量的情感词典至关重要。在机器学习的情感分析主要是基于文本分类,选取词特征、词性特征和语义特征为特征向量,使用支持向量机等算法来进行情感分析。长文本的情感分析技术的核心是过滤掉没有情感表达的客观陈述句,只对文中表达情感的语句来进行情感分析,从而提高情感分析的准确性和效率。
技术实现思路
本专利技术的目的在克服现有长文本情感分析算法准确率不高的问题,提供一种基于机器学习的长文本情感分析方法,采用条件随机场抽取核心句,引入句子情感极性权值来分析整篇文章,提高中文长文本情感分析的准确率。为实现上述专利技术目的,本申请提供了本专利技术基于机器学习的情感分析方法,包括以下步骤:(1)、文本预处理将待情感分析的文章根据标点好进行断句,然后对每一句话进行分词、过滤停用词操作;(2)、条件随机场抽取核心句使用条件随机场得到整篇文章的评价对象,包含该评价对象的句子为该篇文章的核心句。(3)、对核心句进行情感分析采用基于情感词典的情感分析算法,遍历文本预处理后的句中所有词语,如果存在于情感词典中,则记录下相应的情感极性分数,最后把所有记录下的分数累加求和,根据最终的分数来判断每句话的情感极性,如果最终分数大于零则表达了积极的情感,如果小于零则表达了消极的情感,如果等于零则没有明显的情感表达,然后根据判断结果定义初始情感分数为+1、-1和0。(4)、定义核心句的情感极性权值采用情感极性权值来区分不同句子情感极性的强弱,根据最终的情感权值分数分析整篇文章情感极性。(5)、扩展当前情感分析所使用的情感词典采用PMI互信息率和斯坦福语义树把情感词典中未包含的情感词加入进去,扩展情感词典的使用范围。(6)、得到最终情感分析结果其中所述步骤(1)中文本预处理的具体步骤为:(1.1)对输入的非结构化文本进行统一格式处理:去除非结构化文本的首尾非文本部分,获取纯文本部分,若为空文本则跳过;(1.2)对待分析的纯文本根据句号、惊叹号、省略号、问号、分号来断句;将纯文本部分进行词语词性的分词处理,针对词语词性,去除分词结果中的标点符号、拟声词、叹词、助词、连词、介词、副词、数词、量词;其中,条件随机场抽取核心句的具体方法为:(2.1)、由Ramshaw和Marcus提出评价对象标记模式为抽取评价对象过程中的自定义标记标签。对分词过后的词语进行IOB标签标记,使用StanfordParser分析上面分词过后的句子,得到每个词语相应的语义树标签。(2.2)根据分词结果、词性、语义结构设计了条件随机场的特征函数模板。(2.3)统计整篇文章的评价对象词语,出现频率最高的那个词语就为整篇文章的评价对象,包含该词语的句子则为核心句。如果多个评价对象出现次数最高时,那么这些词均为该篇文章的评价对象。其中对核心句进行情感分析的具体方法为:(3.1)对核心句使用基于情感词典的情感分析算法,根据情感分析结果的积极、消极和无明显情感定义该句子的初始情感分数为+1、-1和0。其中定义核心句情感极性权值的具体方法为:(4.1)根据每句话情感表达强度的不同,给每句话定义不同情感极性权值,然后给每句话的初始情感分数乘以一个相应的权值。(4.2.1)程度副词会加强或减弱情感词的情感强度,本专利设计了一个程度副词表,根据不同的程度副词给该核心句的情感极性分数乘以一个权值。(4.2.2)感叹句和疑问句会加强句子的情感表达,本专利设计了相应的语气助词表,给相应的核心句乘以一个权值。(4.2.3)总结句是作者总结前文表达自己观点的句子,本专利设计了一个程度副词表,给相应的核心句乘以一个权值。其中扩展当前的情感词典具体的方法为:(5.1)将分词和去掉停用词的词语组合输入到斯坦福解析器中进行语法解析,得到每个词语相应的语法标签。选取语法标签为副词短语ADVP、形容词短语ADJP、动词短语VP并且不包含在情感词典的词语作为候选情感词。(5.3)构建一个基础情感词典,计算候选情感词与基础情感词典的互信息率,满足一定的阈值则加入到情感词典当中。(5.3.2)计算每个候选情感词和基础情感词典的互信息率,计算公式为其中ci为候选情感词,N为基础情感词典,ri为基础情感词典中的情感词,count(ci,ri)为资料库中的数量,本专利中选取互联网为资料库,通过一个爬虫来爬取该组合在互联网上的信息条目数。计算该词的互信息率,最终符合条件加入到情感词典中。本专利技术的专利技术目的是这样实现的:本专利技术提出一种中文长文本的情感分析方法,使用机器学习条件随机场得到每句话的评价对象,根据评价对象得到整篇文章的核心句,然对核心句进行情感分析,又根据每句话情感极性强度的不同赋予了不同权值,最终分析得到整篇文章的情感极性。通过提取核心句过滤掉没有情感表达的陈述语句,对核心句表达的情感强度做了进一步的划分,提高了长文本情感分析的准确率。同时本专利技术提出的一种中文长文本的情感分析方法还具有以下有益效果:(1)、采用条件随机场抽取核心句,降低了需要情感分析语句的数量,提高了情感分析的效率。(2)、使用PMI互信息率和斯坦福语义树来扩展情感词典,增加了情感词典的情感词数量,提高情感分析的召回率。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定;图1是中文长文本情感分析方法流程图;图2是条件随机场提取核心句流程图;图3是对句子定义情感权值合成流程示意图;图4是情感词典扩展流程示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相本文档来自技高网
...

【技术保护点】
1.一种中文长文本情感分析方法,其特征在于,所述方法包括:步骤1:文本预处理:将待情感分析的文章根据标点号进行断句,然后对断句后的每一句话进行分词、过滤停用词操作;步骤2:条件随机场抽取核心句:使用条件随机场得到整篇文章的评价对象,包含该评价对象的句子为该篇文章的核心句;步骤3:对核心句进行情感分析:采用基于情感词典的情感分析算法,分析每句话的情感极性,根据判断结果定义初始情感分数;步骤4:定义核心句的情感极性权值:采用情感极性权值来区分不同句子情感极性的强弱,根据最终的情感权值分数分析整篇文章情感极性;步骤5:扩展当前情感分析所使用的情感词典:采用点互信息率和斯坦福语义树把情感词典中未包含的情感词加入进去,扩展情感词典的使用范围;步骤6:得到最终情感分析结果。

【技术特征摘要】
1.一种中文长文本情感分析方法,其特征在于,所述方法包括:步骤1:文本预处理:将待情感分析的文章根据标点号进行断句,然后对断句后的每一句话进行分词、过滤停用词操作;步骤2:条件随机场抽取核心句:使用条件随机场得到整篇文章的评价对象,包含该评价对象的句子为该篇文章的核心句;步骤3:对核心句进行情感分析:采用基于情感词典的情感分析算法,分析每句话的情感极性,根据判断结果定义初始情感分数;步骤4:定义核心句的情感极性权值:采用情感极性权值来区分不同句子情感极性的强弱,根据最终的情感权值分数分析整篇文章情感极性;步骤5:扩展当前情感分析所使用的情感词典:采用点互信息率和斯坦福语义树把情感词典中未包含的情感词加入进去,扩展情感词典的使用范围;步骤6:得到最终情感分析结果。2.根据权利要求1所述的中文长文本情感分析方法,其特征在于,所述步骤1中文本预处理的具体步骤为:步骤1.1:对输入的非结构化文本进行统一格式处理:去除非结构化文本的首尾非文本部分,获取纯文本部分,若为空文本则跳过;步骤1.2:对待分析的纯文本根据句号、惊叹号、省略号、问号、分号来断句;步骤1.3:将纯文本部分进行词语词性的分词处理,针对词语词性,去除分词结果中的标点符号、拟声词、叹词、助词、连词、介词、副词、数词、量词。3.根据权利要求1所述的中文长文本情感分析方法,其特征在于,所述步骤2中条件随机场抽取核心句的具体步骤包括:步骤2.1:采用评价对象标记模式为抽取评价对象过程中的自定义标记标签,对分词过后的词语进行评价对象标签标记,使用斯坦福解析器分析上面分词过后的句子,得到每个词语相应的语义树标签;步骤2.2:根据分词结果、词性、语义结构设计条件随机场的特征函数模板;步骤2.3:统计整篇文章的...

【专利技术属性】
技术研发人员:王雄张磊任婧徐世中王晟
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1