The invention discloses a Chinese emotion feature selection method based on extended emotional dictionary and chi-square model. Aiming at the current research difficulties and shortcomings, the invention proposes a Chinese emotion feature selection method based on extended emotional dictionary and chi-square model. Firstly, it calculates the extreme value of each affective word in the dictionary by combining HowNet and the improved method based on word frequency, and establishes a dictionary with emotional extreme value. Secondly, it detects the negative words and the number of negative words in the comment text clause, and carries on the antonymy transformation to the emotional characteristic words within the definition of negative words. Processing effectively solves the problem of polarity reversal in emotional text. Finally, the emotional polarity value of feature items and their frequency characteristics in class are integrated into the Chi-square feature selection model (CHI), which basically corrects the defects of the Chi-square model and makes the improved model have better performance of emotional feature selection. Enough to effectively improve the text emotional classification effect.
【技术实现步骤摘要】
基于扩展的情感词典和卡方模型的中文情感特征选择方法
本专利技术涉及一种自然语言处理技术,尤其涉及一种基于扩展的情感词典和卡方模型的中文情感特征选择方法。
技术介绍
近几年,情感分析己成为自然语言处理中的一个热点问题,其在市场预测分析、民意调查、智能导购、大众评论等诸多领域都有着广阔的应用空间和发展前景。情感评论文本经过特征向量化后,可能会产生多维度灾难,不利于模型训练,因此,文本特征选择尤为重要。情感文本特征选择一般分为两类,一类是利用情感词典直接通过查表法提取情感特征词[1],优点是简单高效,缺点是未考虑情感特征对模型的影响程度,同时,忽略了情感词典外的特征;另一类是基于统计的特征选择方法,如卡方模型、IG方法、WLLR方法、MI方法、TF-IDF方法等,利用统计方法对训练文本特征项词频和文档频率进行计算,从而求出每个特征项的权重系数,将系数高的特征项作为最终选择的特征项。目前,第二种方法比较常用,前人经过实验研究得出卡方模型和IG方法是目前最有效的特征选择算法之一的结论,特别是在类别分布相对均衡时明显优于其他方法。因此探讨并修正这两种方法的缺陷和不足,提高特征选择的效率具有非常重要的实际意义。近年来,一些学者针对IG算法和卡方模型算法的不足作了一些改进工作[2-4]。TFIG算法[2]利用特征项出现频率(包括特征项未出现、出现一次、出现多次三种情况)进行信息增益的计算,该方法对长文本分类效果不错,但应用在短文本情感分析中,则效果一般。CHI_LF算法[3]将特征项的类内频数、类内位置、类间频数分布等信息以及特征项与类别间正负相关度融入卡方模型中,在类偏 ...
【技术保护点】
1.一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,其特征在于,包括以下步骤:(1)卡方特征选择模型:首先假设特征词与类别直接是不相关的,如果利用卡方分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度;卡方模型的计算公式如下:
【技术特征摘要】
1.一种基于扩展的情感词典和卡方模型的中文情感特征选择方法,其特征在于,包括以下步骤:(1)卡方特征选择模型:首先假设特征词与类别直接是不相关的,如果利用卡方分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度;卡方模型的计算公式如下:其中,Aij表示包含特征项ti且属于类cj的文档数量,Bij表示包含特征项ti但不属于类cj的文档数量,Cij表示不包含特征项ti但属于类cj的文档数量,Dij表示不包含特征项ti且不属于类cj的文档数量,N表示文档总数量;(2)将情感特征项的极性值融入卡方模型:将情感评论文本中的情感特征项逐一与带有情感极性值的词典比对,如果该情感特征项在词典中,则将词典中该特征项的值作为该特征项的情感极性值,例如“优秀”在词典中对应的值为0.919,则将0.919作为“优秀”的情感极性值;如果该特征项未出现在词典中,则利用公式(6)进行计算,如“色彩鲜艳”,通过公式计算其情感极性值为0.705;最终获得文本中所有情感特征项的极性值;从卡方模型定义能够发现,矩阵A表示包含特征项的文档属于各个类的数量,是特征选择中最重要的一项,它的值直接决定了特征选择的终值;在其他情况都相同的情况下,矩阵A中包含特征项ti且属于类cj的值Aij越大,则特征项ti对类cj的贡献值就越高,特征项ti与类别cj就具有越深的关联度,此时将特征项ti选择出来能够提高文本分类的准确率;同时,其他矩阵B、C、D都由矩阵A计算得到的;但矩阵A只考虑了文档数量,对特征项自身的情感极性未加考虑,而情感极性值高的特征项在情感分类中具有较大的作用;本文考虑到这两部分因素对分类的影响,对情感极性值与矩阵A进行了融合,将包含特征项的文档数量附上该特征项的情感极性值,矩阵A演变为A'ij=Aij×Eij;例如在其他情况都相似的情况下,特征项“调节”,“喜欢”在褒义类中出现的文档数分别为5、5,原矩阵A只是通过文档频率来判断这两个词对褒义类的重要程度,这种情况则很难区分哪个词对褒义类更重要;而针对修正的矩阵A',由于这两个词的极性值分别为0.1、0.9,则其在矩阵A'中对应的值为5.5、9.5,相当于为情感极性值高的特征项提供一个增量,在特征选择阶段能够...
【专利技术属性】
技术研发人员:孙界平,胡思才,琚生根,李兴国,袁宵,汪嘉伟,王婧妍,
申请(专利权)人:四川大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。