当前位置: 首页 > 专利查询>四川大学专利>正文

基于扩展的情感词典和卡方模型的中文情感特征选择方法技术

技术编号:19635056 阅读:54 留言:0更新日期:2018-12-01 15:47
本发明专利技术公开了一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,本发明专利技术针对目前研究难点和不足,提出了基于扩展的情感词典和卡方模型的中文情感特征选择方法。首先结合知网和改进的基于字频的极性值计算方法对词典中每个情感词进行极性值计算,建立带有情感极性值的词典;然后通过对评论文本子句中否定词及其出现个数进行检测,对否定词界定范围内的情感特征词进行反义变换处理,有效的解决了情感文本中极性反转的问题;最后将特征项的情感极性值和其在类中的频率特点两个因素融入到卡方特征选择模型(CHI)中,基本上修正了卡方模型的缺陷,使得改进后的模型具有更好的情感特征选择性能,能够有效的提高文本情感分类效果。

Chinese Emotional Feature Selection Method Based on Extended Emotional Dictionary and Chi-square Model

The invention discloses a Chinese emotion feature selection method based on extended emotional dictionary and chi-square model. Aiming at the current research difficulties and shortcomings, the invention proposes a Chinese emotion feature selection method based on extended emotional dictionary and chi-square model. Firstly, it calculates the extreme value of each affective word in the dictionary by combining HowNet and the improved method based on word frequency, and establishes a dictionary with emotional extreme value. Secondly, it detects the negative words and the number of negative words in the comment text clause, and carries on the antonymy transformation to the emotional characteristic words within the definition of negative words. Processing effectively solves the problem of polarity reversal in emotional text. Finally, the emotional polarity value of feature items and their frequency characteristics in class are integrated into the Chi-square feature selection model (CHI), which basically corrects the defects of the Chi-square model and makes the improved model have better performance of emotional feature selection. Enough to effectively improve the text emotional classification effect.

【技术实现步骤摘要】
基于扩展的情感词典和卡方模型的中文情感特征选择方法
本专利技术涉及一种自然语言处理技术,尤其涉及一种基于扩展的情感词典和卡方模型的中文情感特征选择方法。
技术介绍
近几年,情感分析己成为自然语言处理中的一个热点问题,其在市场预测分析、民意调查、智能导购、大众评论等诸多领域都有着广阔的应用空间和发展前景。情感评论文本经过特征向量化后,可能会产生多维度灾难,不利于模型训练,因此,文本特征选择尤为重要。情感文本特征选择一般分为两类,一类是利用情感词典直接通过查表法提取情感特征词[1],优点是简单高效,缺点是未考虑情感特征对模型的影响程度,同时,忽略了情感词典外的特征;另一类是基于统计的特征选择方法,如卡方模型、IG方法、WLLR方法、MI方法、TF-IDF方法等,利用统计方法对训练文本特征项词频和文档频率进行计算,从而求出每个特征项的权重系数,将系数高的特征项作为最终选择的特征项。目前,第二种方法比较常用,前人经过实验研究得出卡方模型和IG方法是目前最有效的特征选择算法之一的结论,特别是在类别分布相对均衡时明显优于其他方法。因此探讨并修正这两种方法的缺陷和不足,提高特征选择的效率具有非常重要的实际意义。近年来,一些学者针对IG算法和卡方模型算法的不足作了一些改进工作[2-4]。TFIG算法[2]利用特征项出现频率(包括特征项未出现、出现一次、出现多次三种情况)进行信息增益的计算,该方法对长文本分类效果不错,但应用在短文本情感分析中,则效果一般。CHI_LF算法[3]将特征项的类内频数、类内位置、类间频数分布等信息以及特征项与类别间正负相关度融入卡方模型中,在类偏斜条件下效果较好,但是应用在类别分布相对均衡的短文本中性能提升有限。情感评论文本还有一个显著特点是:评论文本中普遍存在否定词。否定词的出现使其界定范围内的情感极性发生反转,会给基于词袋的监督学习分类算法带来一定的负面影响。因此在进行特征选择之前需对否定词进行处理。Xia[5]等人利用否定词检测和特征词统计方法对文本的情感特征词转换来获取对应的转换文本,充分利用扩展后的文本进行成对的训练和测试。该方法减少了对额外的语料数据的依赖,对各领域的情感文本适应性较强,但该方法因为要对否定词界定范围外的大部分情感特征词进行反转,存在一些特征噪声,如果对中文分词效果不好的情感文本,会有一定的负面影响。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于扩展的情感词典和卡方模型的中文情感特征选择方法。本专利技术通过以下技术方案来实现上述目的:1、本专利技术包括以下步骤:(1)卡方特征选择模型:首先假设特征词与类别直接是不相关的,如果利用卡方分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度;卡方模型的计算公式如下:其中,Aij表示包含特征项ti且属于类cj的文档数量,Bij表示包含特征项ti但不属于类cj的文档数量,Cij表示不包含特征项ti但属于类cj的文档数量,Dij表示不包含特征项ti且不属于类cj的文档数量,N表示文档总数量;(2)将情感特征项的极性值融入卡方模型:将情感评论文本中的情感特征项逐一与带有情感极性值的词典比对,如果该情感特征项在词典中,则将词典中该特征项的值作为该特征项的情感极性值,例如“优秀”在词典中对应的值为0.919,则将0.919作为“优秀”的情感极性值;如果该特征项未出现在词典中,则利用公式(6)进行计算,如“色彩鲜艳”,通过公式计算其情感极性值为0.705;最终获得文本中所有情感特征项的极性值;从卡方模型定义能够发现,矩阵A表示包含特征项的文档属于各个类的数量,是特征选择中最重要的一项,它的值直接决定了特征选择的终值;在其他情况都相同的情况下,矩阵A中包含特征项ti且属于类cj的值Aij越大,则特征项ti对类cj的贡献值就越高,特征项ti与类别cj就具有越深的关联度,此时将特征项ti选择出来能够提高文本分类的准确率;同时,其他矩阵B、C、D都由矩阵A计算得到的;但矩阵A只考虑了文档数量,对特征项自身的情感极性未加考虑,而情感极性值高的特征项在情感分类中具有较大的作用;本专利技术考虑到这两部分因素对分类的影响,对情感极性值与矩阵A进行了融合,将包含特征项的文档数量附上该特征项的情感极性值,矩阵A演变为A'ij=Aij×Eij;例如在其他情况都相似的情况下,特征项“调节”,“喜欢”在褒义类中出现的文档数分别为5、5,原矩阵A只是通过文档频率来判断这两个词对褒义类的重要程度,这种情况则很难区分哪个词对褒义类更重要;而针对修正的矩阵A',由于这两个词的极性值分别为0.1、0.9,则其在矩阵A'中对应的值为5.5、9.5,相当于为情感极性值高的特征项提供一个增量,在特征选择阶段能够较大可能地将在训练语料中出现较少但情感极性值较高的特征给选择出来;其中,Eij是一个情感强度矩阵,行表示情感特征项,列表示类,第一列表示贬义类,第二列表示褒义类,ei是利用情感词典和公式(6)得到的特征项情感值,其中当ei≥0时,该特征项为褒义词,则Eij中两类中的值分别为:从公式(8)可以看出,当该特征项为褒义词时,A'ij相当于给矩阵A中包含特征项ti且属于类c1褒义类的值Ai1乘上了一个大的权重1+ei,矩阵A中包含特征项ti且属于类c0贬义类的值Ai0保持不变;当ei<0时,该特征项为贬义词,则Eij的两类中值分别为:从公式(9)可以看出,当该特征项为贬义词时,A'ij相当于给矩阵A中包含特征项ti且属于类c0贬义类的值Ai0乘上了一个大的权重1+|ei|,矩阵A中包含特征项ti且属于类c1褒义类的值Ai1保持不变;按照上述公式求出A'后,再结合特征数量N,求出B',C',D',最后得出新的特征值:(3)特征项类间频率信息与卡方模型结合:卡方模型考虑的总是包含特征项或者不含特征项的文档数目,未考虑到特征项在类中出现的频率,但特征频率也是特征选择的一个重要因素;比如特征项ti和tk由卡方模型计算出的值比较接近,但是假如特征项ti在类cj中出现的频数很大,而tk出现的频数很少,则ti的在类cj的表现能力明显要比tj强,但卡方模型却反映不出这方面的差异;本专利技术中利用TF(ti,cj)表示特征项ti在类别cj中的词频数,公式为:其中tfk(ti,cj)表示特征ti在属于类cj的文档dk中的词频数,tf(ti,cj)min表示特征ti在属于类cj的单文档中出现的最小词频数,f(ti,cj)max表示特征ti在属于类cj的单文档中出现的最大词频数,|cj|表示属于类cj的文档数量;考虑到不同类别之间文档数目对其的影响,现对其进行归一化:即为特征项在各个类中归一化词频;(4)情感特征选择公式:将情感特征项的极性值和特征项的类间频率融入卡方模型中,最终的公式如下所示:根据公式(13),即可求得每个情感特征的修正卡方值,对所有的值按由大到小的顺序排列,取出特定数量的最大修正卡方值所对应的情感特征作为最终的情感特征,然后根据所选的情感特征对情感文本进行特征向量化,再利用文本分类器进行分类。本专利技术的有益效果在于:本专利技术是一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,与现有技术相比,本专利技术针对目前研究难点和不足本文档来自技高网
...

【技术保护点】
1.一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,其特征在于,包括以下步骤:(1)卡方特征选择模型:首先假设特征词与类别直接是不相关的,如果利用卡方分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度;卡方模型的计算公式如下:

【技术特征摘要】
1.一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,其特征在于,包括以下步骤:(1)卡方特征选择模型:首先假设特征词与类别直接是不相关的,如果利用卡方分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度;卡方模型的计算公式如下:其中,Aij表示包含特征项ti且属于类cj的文档数量,Bij表示包含特征项ti但不属于类cj的文档数量,Cij表示不包含特征项ti但属于类cj的文档数量,Dij表示不包含特征项ti且不属于类cj的文档数量,N表示文档总数量;(2)将情感特征项的极性值融入卡方模型:将情感评论文本中的情感特征项逐一与带有情感极性值的词典比对,如果该情感特征项在词典中,则将词典中该特征项的值作为该特征项的情感极性值,例如“优秀”在词典中对应的值为0.919,则将0.919作为“优秀”的情感极性值;如果该特征项未出现在词典中,则利用公式(6)进行计算,如“色彩鲜艳”,通过公式计算其情感极性值为0.705;最终获得文本中所有情感特征项的极性值;从卡方模型定义能够发现,矩阵A表示包含特征项的文档属于各个类的数量,是特征选择中最重要的一项,它的值直接决定了特征选择的终值;在其他情况都相同的情况下,矩阵A中包含特征项ti且属于类cj的值Aij越大,则特征项ti对类cj的贡献值就越高,特征项ti与类别cj就具有越深的关联度,此时将特征项ti选择出来能够提高文本分类的准确率;同时,其他矩阵B、C、D都由矩阵A计算得到的;但矩阵A只考虑了文档数量,对特征项自身的情感极性未加考虑,而情感极性值高的特征项在情感分类中具有较大的作用;本文考虑到这两部分因素对分类的影响,对情感极性值与矩阵A进行了融合,将包含特征项的文档数量附上该特征项的情感极性值,矩阵A演变为A'ij=Aij×Eij;例如在其他情况都相似的情况下,特征项“调节”,“喜欢”在褒义类中出现的文档数分别为5、5,原矩阵A只是通过文档频率来判断这两个词对褒义类的重要程度,这种情况则很难区分哪个词对褒义类更重要;而针对修正的矩阵A',由于这两个词的极性值分别为0.1、0.9,则其在矩阵A'中对应的值为5.5、9.5,相当于为情感极性值高的特征项提供一个增量,在特征选择阶段能够...

【专利技术属性】
技术研发人员:孙界平胡思才琚生根李兴国袁宵汪嘉伟王婧妍
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1