一种基于动态情感词和特殊修饰词的文本情感分析方法技术

技术编号:14941377 阅读:150 留言:0更新日期:2017-04-01 04:48
本发明专利技术公开了一种基于动态情感词和特殊修饰词的文本情感分析方法,包括:(1)构建动态情感词‑属性词词对列表,人工标注这些词对的情感极性和情感强度;构建特殊修饰词‑名词情感词词对列表,人工标注这些词对的情感极性和情感强度;(2)构建基于词性的分句情感强度计算方法;(3)构建基于动态情感词和特殊修饰词的情感强度修正方法;在进行情感分析时,根据动态情感词与属性词、特殊修饰词与名词情感词之间的修饰关系,修正情感计算结果。本发明专利技术方法的优点在于充分考虑了动态情感词与特殊修饰词在情感分析中的作用,使得情感分析结果更加符合实际情况。

【技术实现步骤摘要】

本专利技术属于文本情感分析
,具体涉及一种基于动态情感词和特殊修饰词的文本情感分析方法
技术介绍
中文文本情感分析是指对文本的情感极性和情感强度进行分析,从而能够对文本的观点进行分类汇总,并为给用户提供更好的决策依据。文本情感分析按照粒度可以分为词语级、句子级和篇章级三个层次。词语级的情感分析主要利用情感词词典判断文本的情感倾向,常见的情感倾向词典WordNet和GeneralInquirer等。句子级情感分析的典型方法是文本分类方法或者结合情感本体和语义特征的方法,从句子的词汇和结构两方面考虑,提取影响语句情感极性的语义特征,最终确定句子在其所处文本中的情感色彩。篇章级的情感分析,主要从整体判断整个文本的情感倾向,分为褒贬两种态度,主要方法是通过对于文本进行人工标注情感的倾向,通过对标注的文本进行训练分类器,最后对于新的文本进行分类。在句子级情感分析中,徐琳宏等人在《认知视角下的文本情感计算》一文提出新的文本情感认知模型。该文本情感认知模型从情感认知角度出发,综合了各种可能影响情感体验的因素,从而提高文本情感识别的准确率。但该方法的情感图式较少,泛化能力较差。吴江等人在《基于语义规则的Web金融文本情感分析》一文中提出了基于语义规则的Web金融文本情感分析方法,该方法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则来识别情感单元及强度,进而得到文本的情感倾向和强度。刘翠娟等人在《基于微博文本数据分析的社会群体情感可视计算方法研究》一文中提出基于依存句法和人工标注相结合的情感分析方法,其首先将微博文本通过句法分析得到情感关系对,通过情感词典计算情感句的情感强度,然后通过副词修正情感强度,该方法与吴江等人在《基于语义规则的Web金融文本情感分析》的情感计算方法存在同样的问题,只考虑了情感词、副词和否定副词三类词语对情感强度的影响,而并未考虑词语间搭配对情感强度的影响。
技术实现思路
针对现有技术所存在的上述技术缺陷,本专利技术提供了一种基于动态情感词和特殊修饰词的文本情感分析方法,根据动态情感词与属性词、特殊修饰词与名词情感词之间的修饰关系,修正情感计算的结果,使得情感分析结果更加符合实际情况。一种基于动态情感词和特殊修饰词的文本情感分析方法,包括如下步骤:(1)获取关于目标对象一定数量的评论组成待分析的语料库,基于所述语料库构建关于目标对象的基础词典,进而人工标注基础词典中每一情感词的情感值以及每一副词的程度值,所述的情感值具有正负极性;(2)基于所述语料库构建关于动态情感词-属性词的词对列表以及关于特殊修饰词-名词情感词的词对列表;(3)对于所述语料库中任一条评论,依次计算该评论中各分句的情感值。所述步骤(1)中构建关于目标对象的基础词典之前,需对语料库进行预处理,预处理过程依次包括评论语句的分割、中文分词、停用词过滤以及无标点语句的删除。所述的基础词典包含有属性词、情感词和副词,情感词分为动态情感词、特殊修饰词和名词情感词,副词分为程度副词和否定副词;所述名词情感词为用来表达情感变化的词语且其词性为名词;所述动态情感词为用来表达情感变化的词语且在对不同对象表达情感时出现不同极性;所述特殊修饰词为用来表达情感变化的词语且在具体的语境中能够改变情感强烈的程度。所述步骤(1)中根据情感词的情感极性和情感强度,人工标注其情感值为-3、-2、-1、1、2或3;根据副词的情感程度,人工标注程度副词的程度值为0.3、0.5、0.7或0.9,人工标注否定副词的程度值为-1。所述步骤(2)中构建关于动态情感词-属性词的词对列表,具体过程为:首先,对于语料库中任一动态情感词-属性词的词对,计算该词对的TF-IDF(termfrequency-inversedocumentfrequency)权值wDOW-AW:其中:tfDOW-AW为该词对在语料库中的词频,N为语料库中评论的总数量,nDOW-AW为语料库中包含该词对的评论的数量;然后,根据TF-IDF权值wDOW-AW从大到小对语料库中所有动态情感词-属性词的词对进行排序,选取前200个词对构建动态情感词-属性词的词对列表,删除其中不合理的词对,进而对列表中每一词对的情感值进行人工标注。所述步骤(2)中构建关于特殊修饰词-名词情感词的词对列表,具体过程为:首先,对于语料库中任一特殊修饰词-名词情感词的词对,计算该词对的TF-IDF权值wSMW-NEW:其中:tfSMW-NEW为该词对在语料库中的词频,N为语料库中评论的总数量,nSMW-NEW为语料库中包含该词对的评论的数量;然后,根据TF-IDF权值wSMW-NEW从大到小对语料库中所有特殊修饰词-名词情感词的词对进行排序,选取出前100个词对构建出特殊修饰词-名词情感词的词对列表,删除其中不合理的词对,然后对列表中每一个词对的情感值进行人工标注。所述步骤(3)中依次计算评论中各分句的情感值,具体方法如下;对于评论中任一分句i,若分句i与其前一分句存在顺承关系,则分句i的情感值EIi=EIi-1;若分句i与其前一分句存在转折关系,则分句i的情感值EIi=-EIi-1;其中,EIi-1为评论中分句i的前一分句的情感值;若分句i在评论中与其前一分句即不存在顺承关系,也不存在转折关系,则根据以下关系计算分句i的情感值EIi;若分句i仅有一个情感词组成,则分句i的情感值EIi=EIVEW;若分句i依次由一个程度副词和一个情感词组成,则分句i的情感值EIi=EIVEW×(1+EIVAD);若分句i依次由一个程度副词、另一个程度副词和一个情感词组成,则分句i的情感值EIi=EIVEW×(1+EIVAD1+EIVAD2);若分句i依次由一个否定副词和一个情感词组成且EIVEW>0,则分句i的情感值EIi=EIVEW-3;若分句i依次由一个否定副词和一个情感词组成且EIVEW<0,则分句i的情感值EIi=EIVEW+3;若分句i依次由一个程度副词、一个否定副词和一个情感词组成且EIVEW>0,则分句i的情感值EIi=(EIVEW-3)×(1+EIVAD);若分句i依次由一个程度副词、一个否定副词和一个情感词组成且EIVEW<0,则分句i的情感值EIi=(EIVEW+3)×(1+EIVAD);若分句i依次由一个否定副词、一个程度副词和一个情感词组成且EIVEW>0,则分句i的情感值EIi=EIVEW×(1+EIVAD)-3;若分句i依次由一个否定副词、一个程度副词和一个情感词组成且EIVEW<0,则分句i的情感值EIi=EIVEW×(1+EIVAD)+3;若分句i依次由一个否定副词、另一个否定副词和一个情感词组成且EIVEW>0,则分句i的情感值EIi=-(EIVEW-3);若分句i依次由一个否定副词、另一个否定副词和一个情感词组成且EIVEW<0,则分句i的情感值EIi=-(EIVEW+3);其中:EIVEW为分句i中情感词的情感值,EIVAD为分句i中唯一程度副词的程度值,EIVAD1为分句i中前一程度副词的程度值,EIVAD2为分句i中后一程度副词的程度值;接下来,判断分句i中是否存在动态情感词-属性词词对或特殊修饰词-名词情感词词对,若分句i中存在动态情感词-属性词的词对,则将该词对的情感本文档来自技高网
...
一种基于动态情感词和特殊修饰词的文本情感分析方法

【技术保护点】
一种基于动态情感词和特殊修饰词的文本情感分析方法,包括如下步骤:(1)获取关于目标对象一定数量的评论组成待分析的语料库,基于所述语料库构建关于目标对象的基础词典,进而人工标注基础词典中每一情感词的情感值以及每一副词的程度值,所述的情感值具有正负极性;(2)基于所述语料库构建关于动态情感词‑属性词的词对列表以及关于特殊修饰词‑名词情感词的词对列表;(3)对于所述语料库中任一条评论,依次计算该评论中各分句的情感值。

【技术特征摘要】
1.一种基于动态情感词和特殊修饰词的文本情感分析方法,包括如下步骤:(1)获取关于目标对象一定数量的评论组成待分析的语料库,基于所述语料库构建关于目标对象的基础词典,进而人工标注基础词典中每一情感词的情感值以及每一副词的程度值,所述的情感值具有正负极性;(2)基于所述语料库构建关于动态情感词-属性词的词对列表以及关于特殊修饰词-名词情感词的词对列表;(3)对于所述语料库中任一条评论,依次计算该评论中各分句的情感值。2.根据权利要求1所述的文本情感分析方法,其特征在于:所述步骤(1)中构建关于目标对象的基础词典之前,需对语料库进行预处理,预处理过程依次包括评论语句的分割、中文分词、停用词过滤以及无标点语句的删除。3.根据权利要求1所述的文本情感分析方法,其特征在于:所述的基础词典包含有属性词、情感词和副词,情感词分为动态情感词、特殊修饰词和名词情感词,副词分为程度副词和否定副词;所述名词情感词是用来表达情感变化的词语且其词性为名词;所述动态情感词为用来表达情感变化的词语且在对不同对象表达情感时表现出不同的极性;所述特殊修饰词为用来表达情感变化的词语,在具体的语境中能够改变情感强烈的程度。4.根据权利要求3所述的文本情感分析方法,其特征在于:所述步骤(1)中,根据情感词的情感极性和情感强度,人工标注其情感值为-3、-2、-1、1、2或3;人工标注程度副词的程度值为0.3、0.5、0.7或0.9,人工标注否定副词的程度值为-1。5.根据权利要求1所述的文本情感分析方法,其特征在于:所述步骤(2)中构建关于动态情感词-属性词的词对列表,具体过程为:首先,对于语料库中任一动态情感词-属性词的词对,计算该词对的TF-IDF权值wDOW-AW:wDOW-AW=tfDOW-AW×log2(NnDOW-AW)]]>其中:tfDOW-AW为该词对在语料库中的词频,N为语料库中评论的总数量,nDOW-AW为语料库中包含该词对的评论的数量;然后,根据TF-IDF权值wDOW-AW从大到小对语料库中所有动态情感词-属性词的词对进行排序,选取前200个词对构建动态情感词-属性词的词对列表,删除其中不合理的词对,最后对列表中每一词对的情感值进行人工标注。6.根据权利要求1所述的文本情感分析方法,其特征在于:所述步骤(2)中构建关于特殊修饰词-名词情感词的词对列表,具体过程为:首先,对于语料库中任一特殊修饰词-名词情感词的词对,计算该词对的TF-IDF权值wSMW-NEW:wSMW-NEW=tfSMW-NEW×log2(NnSMW-NEW)]]>其中:tfSMW-NEW为该词对在语料库中的词频,N为语料库中评论的总数量,nSMW-NEW为语料库中包含该词对的评论的数量;然后,根据TF-IDF权值wSMW-NEW从大到小对语料库中所有特殊修饰词-名词情感词的词对进行排序,选取出前100个词...

【专利技术属性】
技术研发人员:张宇姚奥
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1