一种中文情感分析方法及系统技术方案

技术编号:17196043 阅读:47 留言:0更新日期:2018-02-03 22:46
本发明专利技术提供一种中文情感分析方法及系统,该方法包括:获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重;从所述中文语句中获取每个情感词对应的副词,并获取对应的副词的权重,根据对应的副词的权重修改情感词的正向情感权重或负向情感权重;从所述中文语句中获取每个情感词对应的否定词,根据否定词的个数调整修改后的正向情感权重和负向情感权重;根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,得到所述中文语句情感倾向。本发明专利技术在分析中文语句的情感倾向时考虑了情感词对应的副词,具有分析情感细腻性的能力,考虑了否定词,提高了情感分析的准确度。

【技术实现步骤摘要】
一种中文情感分析方法及系统
本专利技术涉及情感分析
,更具体地说,涉及一种中文情感分析方法及系统。
技术介绍
所谓文本的情感分析就是分析一段文字(主要指中文)的情感倾向,作为舆情监控的基础工作,自然有很多用途。社交网络越来越火,名博或意见领袖越来越多,允许用户对商品和服务评价打分的站点更是如雨后春笋,用户的评价和建议可以全网传播,这些文本类型的数据毫无疑问是精准营销的动力来源,企业可以根据情感分析建立自己的数字形象,识别新的市场机会,做好市场细分,进而推动产品成功上市;但抓住这些评论的价值部分也是企业的巨大挑战;政府同企业一样需要通过情感分析、监控和缓解,引领舆情,消弭社会矛盾,上述正是情感分析的应用背景。但与如此重要的背景背道而驰的是中文情感分析系统的弱势,常见的情感分析分为基于情感词典的情感分析和基于监督模型的情感分析。所谓基于情感词典的情感分析,首先将情感词分为正向(褒义)和负向(贬义),然后将一条待分析的中文文本分词,统计正向词个数和负向词个数,如果正向词个数大于负向词个数,则这条文本属于正向,否则属于情感负向。有些研究者对情感词典进行了人工加权,比如说“爱”和“喜欢”的权重不一样,人工给予“爱”更高的权重,但是无论怎么改变,这种分析方式的缺陷是显而易见。首先,准确率非常低,一般为50%左右,几乎不能支撑舆情监控;其次,人工定义情感词的正负倾向或权重,工作量巨大而且非常武断;另外,对于否定句和程度副词加强的语句几乎无效,从而丧失了分析情感细腻性(程度)的能力。另一种是基于监督模型的情感分析,即通过人工标注一个训练集(训练集的每一条文本都要人工将其分为情感正向或情感负向),然后使用训练集训练模型,模型训练完成后预测待分析文本。这种方法虽然基于大量的训练集暂时提高了准确率,一般为75%左右,但是标注训练集如此浩繁的工作让使用者望而却步;另外,人工标注训练集的粒度导致了这种方式同样不具有分析情感细腻性的能力,或者说能力较弱。
技术实现思路
本专利技术提出一种中文情感分析方法及系统,能够分析中文文本(中文语句)情感细腻性,情感分析准确。为此,本专利技术提出以下技术方案:一方面,提供一种中文情感分析方法,包括:获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重;从所述中文语句中获取每个情感词对应的副词,并获取对应的副词的权重,根据对应的副词的权重修改情感词的正向情感权重或负向情感权重;从所述中文语句中获取每个情感词对应的否定词,根据否定词的个数调整修改后的正向情感权重和负向情感权重;根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,得到所述中文语句情感倾向。其中,所述根据对应的副词的权重修改情感词的正向情感权重或负向情感权重,包括:将对应的情感词的正向情感权重和负向情感权重中较大的情感权重乘以所述情感词对应的副词的权重,较小的情感权重不变。其中,所述根据否定词的个数调整修改后的正向情感权重和负向情感权重,包括:若否定词的个数为奇数,则将对应的情感词的正向情感权重和负向情感权相互对调;若否定词的个数为偶数,则对应的情感词的正向情感权重和负向情感权不变。其中,所述根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,包括:计算正向情感权重乘积;所述正向情感权重乘积为所有情感词经对应的副词权重和否定词个数调整后的正向情感权重的乘积;计算负向情感权重乘积;所述负向情感权重乘积为所有情感词经对应的副词权重和否定词个数调整后的负向情感权重的乘积;计算正向情感权重乘积与正向情感权重乘积与负向情感权重乘积之和的商,所述商为情感得分;所述情感得分的值包括0-1,若情感得分大于0.5,则为正向情感倾向,若情感得分小于0.5,则为负向情感倾向,若情感得分等于0.5,则为中性情感倾向。其中,获取中文语句中的所有情感词之前,还包括,预先构建加权情感词典;所述加权情感词典包括情感词及情感词对应的正向情感权重和负向情感权重;所述获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重,包括:将中文语句进行分词,将分词得到的词汇与加权情感词典中的词汇进行匹配,获得中文语句中的所有情感词,并获得每个情感器的正向情感权重和负向情感权重。另一方面,一种中文情感分析系统,包括:第一获取模块,用于获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重;第二获取模块,用于从所述中文语句中获取每个情感词对应的副词,并获取对应的副词的权重;修改模块,用于根据对应的副词的权重修改情感词的正向情感权重或负向情感权重;第三获取模块,用于从所述中文语句中获取每个情感词对应的否定词;调整模块,用于根据否定词的个数调整修改后的正向情感权重和负向情感权重;计算模块,用于根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,得到所述中文语句情感倾向。其中,所述修改模块具体用于:将对应的情感词的正向情感权重和负向情感权重中较大的情感权重乘以所述情感词对应的副词的权重,较小的情感权重不变。其中,所述调整模块具体用于:若否定词的个数为奇数,则将对应的情感词的正向情感权重和负向情感权相互对调;若否定词的个数为偶数,则对应的情感词的正向情感权重和负向情感权不变。其中,所述计算模块包括:第一计算单元,用于计算正向情感权重乘积;所述正向情感权重乘积为所有情感词经对应的副词权重和否定词个数调整后的正向情感权重的乘积;第二计算单元,用于计算负向情感权重乘积;所述负向情感权重乘积为所有情感词经对应的副词权重和否定词个数调整后的负向情感权重的乘积;第三计算单元,用于计算正向情感权重乘积与正向情感权重乘积与负向情感权重乘积之和的商,所述商为情感得分;所述情感得分的值包括0-1,若情感得分大于0.5,则为正向情感倾向,若情感得分小于0.5,则为负向情感倾向,若情感得分等于0.5,则为中性情感倾向。其中,所述中文情感分析系统还包括构建模块,用于预先构建加权情感词典;所述加权情感词典包括情感词及情感词对应的正向情感权重和负向情感权重;所述第一获取模块具体用于:将中文语句进行分词,将分词得到的词汇与加权情感词典中的词汇进行匹配,获得中文语句中的所有情感词,并获得每个情感器的正向情感权重和负向情感权重。本专利技术提供的一种中文情感分析方法及系统,在分析中文语句的情感倾向时考虑了情感词对应的副词,具有分析情感细腻性的能力,考虑了否定词,提高了情感分析的准确度。附图说明图1是本专利技术实施例一提供的一种中文情感分析方法的方法流程图。图2是本专利技术实施例二提供的一种中文情感分析方法的方法流程图。图3是本专利技术实施例三提供的一种中文情感分析系统的结构方框图。图4是本专利技术实施例四提供的一种中文情感分析系统的结构方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一本实施例提供一种中文情感分析方法,如图1所示,该方法包括以下步骤:S101、获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重。首先,我们具有一份加权情感词典,加权情感词典中的每个情感词都标注有正向情感权重本文档来自技高网
...
一种中文情感分析方法及系统

【技术保护点】
一种中文情感分析方法,其特征在于,包括:获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重;从所述中文语句中获取每个情感词对应的副词,并获取对应的副词的权重,根据对应的副词的权重修改情感词的正向情感权重或负向情感权重;从所述中文语句中获取每个情感词对应的否定词,根据否定词的个数调整修改后的正向情感权重和负向情感权重;根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,得到所述中文语句情感倾向。

【技术特征摘要】
1.一种中文情感分析方法,其特征在于,包括:获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重;从所述中文语句中获取每个情感词对应的副词,并获取对应的副词的权重,根据对应的副词的权重修改情感词的正向情感权重或负向情感权重;从所述中文语句中获取每个情感词对应的否定词,根据否定词的个数调整修改后的正向情感权重和负向情感权重;根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,得到所述中文语句情感倾向。2.如权利要求1所述的中文情感分析方法,其特征在于,所述根据对应的副词的权重修改情感词的正向情感权重或负向情感权重,包括:将对应的情感词的正向情感权重和负向情感权重中较大的情感权重乘以所述情感词对应的副词的权重,较小的情感权重不变。3.如权利要求1所述的中文情感分析方法,其特征在于,所述根据否定词的个数调整修改后的正向情感权重和负向情感权重,包括:若否定词的个数为奇数,则将对应的情感词的正向情感权重和负向情感权相互对调;若否定词的个数为偶数,则对应的情感词的正向情感权重和负向情感权不变。4.如权利要求1所述的中文情感分析方法,其特征在于,所述根据所有情感词经对应的副词权重和否定词个数调整后的正向情感权重和负向情感权重计算情感得分,包括:计算正向情感权重乘积;所述正向情感权重乘积为所有情感词经对应的副词权重和否定词个数调整后的正向情感权重的乘积;计算负向情感权重乘积;所述负向情感权重乘积为所有情感词经对应的副词权重和否定词个数调整后的负向情感权重的乘积;计算正向情感权重乘积与正向情感权重乘积与负向情感权重乘积之和的商,所述商为情感得分;所述情感得分的值包括0-1,若情感得分大于0.5,则为正向情感倾向,若情感得分小于0.5,则为负向情感倾向,若情感得分等于0.5,则为中性情感倾向。5.如权利要求1所述的中文情感分析方法,其特征在于,获取中文语句中的所有情感词之前,还包括,预先构建加权情感词典;所述加权情感词典包括情感词及情感词对应的正向情感权重和负向情感权重;所述获取中文语句中的所有情感词,并获取每个情感词的正向情感权重和负向情感权重,包括:将中文语句进行分词,将分词得到的词汇与加权情感词典中的词汇进行匹配,获得中文语句中的所有情感...

【专利技术属性】
技术研发人员:宋云生
申请(专利权)人:深圳联友科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1