基于CRFs和SVM的产品评论细粒度情感要素提取制造技术

技术编号:9794592 阅读:218 留言:0更新日期:2014-03-21 19:18
本发明专利技术公开了一种基于CRFs和SVM的产品评论细粒度情感要素提取,包括如下步骤:a、采用CRFs模型,将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;b、根据提取出的情感对象、情感词和引入的句子结构特征,采用SVM模型对词对进行情感倾向性分析。本发明专利技术不仅将评论句中情感对象和情感词一并提取出来,而且提高了情感倾向性分析中的情感分类精度,使得在情感要素抽取与情感判断上得到提高,F值达到76.3%。由于词义代码的引入,词义代码提高了系统的泛化能力和鲁棒性,使得评论结果分析的正确率和召回率均得到了较大提高。

【技术实现步骤摘要】
基于CRFs和SVM的产品评论细粒度情感要素提取
本专利技术属于计算机信息挖掘
,涉及产品情感要素提取,具体的涉及基于CRFs和SVM的产品评论细粒度情感要素提取。
技术介绍
随着互联网用户迅速增长以及线上购物的不断普及,电子商务出现了爆炸式发展,虽然传统购物还无法被取缔,但是网上购物逐渐成为了人们的首选方式,因为在网上购物环境中,用户可以通过网上商品评论,随时获得更多、更全面的购物参考信息,对商品质量有更全面的了解,同时,用户在购买商品后,往往会参与到对商品的评价中,使得商品评论数据变得越来越庞大。相对商家宣传,评论数据往往能够更客观的反映出产品的真实面貌,如质量、外观、用户体验等等。准确而快速的获取和分析这些评论数据,除了可以为用户提供购买决策支持,还能给商家制定销售策略和改进商品提供全面准确的依据。在网络交易平台上,评论数据往往较多,尤其是热门商品,在海量的数据面前,对信息的快速获取造成了障碍,而人工处理效率低下的缺点就尤为明显。为了解决这个问题,许多电子商务网站采用了五星制评级方式来量化用户对商品的评价。这种方法在一定程度上简化了评论处理,方便用户获取信息,但是,可能会丢失许多重要的信息。针对普通五星制的缺点,少数网站细化了评价分类,如日本的Kakaku网上商城,针对不同类型的商品,列出大家比较关注的一些主要属性,例如性价比等,让用户对产品的每一个属性分别评论并评分,总体的评分汇总直接提供给用户作为购物参考。这种方式有了明显的改进,但是同时带来了一些弊端,首先是产品属性集合并不是固定不变的,人们关注的属性随时可能发生变化,固定的属性集合随着时间的推移可能会渐渐变的不合理,因而需要随着产品的发展和用户的关注点进行更改。其次是固定的属性集合很有限,无法列举出所有属性。再次,人们喜欢使用自然语言表达观点和情感,固定的属性集合不利于提升用户体验。使用自然语言对观点和认知进行表达是人们最自然的表达方式,这种用户评论也给研究者带来了新挑战,要从自然语言评论中自动发现情感要素,因而,使用自然语言处理技术自动处理用户的评论数据是最理想的处理方式。单独的情感分类按照粒度的不同可以分为四个级别:词级/短语级、句子级、段落、篇章级。到目前为止,学者们对句子级和篇章级的研究较多,短语级的相对较少。虽然已有不少学者在情感倾向性分析上进行了一些研究,并且取得了不少成果,但在细粒度<情感对象,情感词>词对抽取及情感倾向性分析方面,综合效果距离实用仍有不少差距。
技术实现思路
为了解决现有技术中的不足,本专利技术提出了一种基于CRFs和SVM的产品评论细粒度情感要素提取,以同时提取评论句中情感对象和情感词,并对其情感倾向性进行分析。为实现上述专利技术目的,本专利技术采用如下技术方案:基于CRFs和SVM的产品评论细粒度情感要素提取,包括如下步骤:a、采用条件随机场模型(CRFs)将评论句中的情感对象(SS)和情感词(SW)同步提取出来,具体步骤包括:将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;b、根据提取出的情感对象、情感词和引入的句子结构特征,采用支持向量机(SVM)模型对情感对象和情感词组成的词对进行情感倾向性分析。所述的a步骤中评论语句的特征包括:词本身(W)、词性(POS)、语法树父节点词本身(PW)、语法树父节点词性(PPOSE)、语法树父节点语义角色(PDP)。所述的位置标注的符号集合为:BA(位于情感词之前的情感对象)、BB(位于情感对象之前的情感词)、EA(位于情感词之后的情感对象)、EB(位于情感对象之后的情感词)、SA(没有情感词的情感对象)、SB(没有情感对象的情感词)、P(标点符号)、O(其他)。所述的a步骤中的相应规则的伪代码为:设CurrWord为当前词,WordLabel为当前词标记,SS为当前情感对象,SW为当前情感词,SSSet为情感对象集合,WPSet为<情感对象,情感词>词对集合;初始化如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:不处理elseifWordLabel=P或者当前词到了句子末尾:如果SS已找到:将SS放入SSSet;如果SSSet不为空并且SW已找到:将SSSet和SW放入WPSet;重新初始化elseifWordLabel=BA:如果CurrWord和SS为并列关系:将SS放入SSSet,SS设为CurrWord否则:将SS和CurrWord拼接成新的SSelseifWordLabel=BB:SW设为WordLabel,SS设为未找到;elseifWordLabel=EA:如果CurrWord和SS为并列关系:将SS放入SSSet,SS设为CurrWord否则:将SS和CurrWord拼接成新的SSelseifWordLabel=EB:SW设为CurrWord,再按照当前词标记为P的方式处理。所述的b步骤中句子结构特征包括:情感对象词义代码(SSC)、情感词词义代码(SWC)、是否存在情感倾向反转词、情感词基本极性。所述的词性(POS)包括:结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。所述的语义角色(DP)包括:主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。所述的语法树父节点词本身(PW)是指在语法分析树中,每个词都有一个父节点,每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Wordi/Pi/Indexi形式的数组,表示第i个词的父节点为第Indexi个词,他们之间的关系是Pi,形式化为其中:parent(i)表示第i个词的父节点,word(i)表示第i个词,relation(i)表示第i个词与其父节点的依存关系,可以循环调用father的方式来到达树根。所述的词义代码指的是具有相同或者相近意义的词的集合的编号,意义相同或者相近的词属于同一个集合,拥有相同的词义代码,由于一些词具有多义性,所以同一个词可能同时属于多个集合,拥有多个词义代码;词义代码的获取方法为:将词转化成向量,再使用K-means聚类算法将意义相同或者相近的词聚合成一类,再给每一类分配一个固定的唯一的编号,这个编号就是这一类词的词义代码。所述的情感词基本极性判断方式为:基本的情感词极性通过《中国知网》情感词典查得,词典中没有的词使用SO-PMI算法计算极性,互信息(PMI)计算如下式:其中:p(w1,w2)为词w1和w2同时出现的概率,SO-PMI通过下式计算得到:其中:Pset为正向情感词集合,Nset为负向情感词集合。本专利技术的有益效果为:本专利技术针对评论细粒度词级/短语级研究,基于改进后的SVM和CRFs混合模型,通过引入搭配关系和句法特征以及句法结构信息,不仅将评论句中情感对象和情感词一本文档来自技高网
...
基于CRFs和SVM的产品评论细粒度情感要素提取

【技术保护点】
基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:包括如下步骤:a、采用条件随机场模型(CRFs)将评论句中的情感对象(SS)和情感词(SW)同步提取出来,具体步骤包括:将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;b、根据提取出的情感对象、情感词和引入的句子结构特征,采用支持向量机(SVM)模型对情感对象和情感词组成的词对进行情感倾向性分析。

【技术特征摘要】
1.基于CRFs和SVM的产品评论细粒度情感要素提取方法,其特征在于:包括如下步骤:a、采用条件随机场模型CRFs将评论句中的情感对象SS和情感词SW同步提取出来,具体步骤包括:将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;b、根据提取出的情感对象、情感词和引入的句子结构特征,采用支持向量机SVM模型对情感对象和情感词组成的词对进行情感倾向性分析;所述的a步骤中评论语特征包括:词本身W、词性POS、语法树父节点词本身PW、语法树父节点词性PPOSE、语法树父节点语义角色PDP;所述的位置标注的符号集合为:BA位于情感词之前的情感对象、BB位于情感对象之前的情感词、EA位于情感词之后的情感对象、EB位于情感对象之后的情感词、SA没有情感词的情感对象、SB没有情感对象的情感词、P标点符号、O其他;所述的a步骤中的相应规则的伪代码为:设CurrWord为当前词,WordLabel为当前词标记,SS为当前情感对象,SW为当前情感词,SSSet为情感对象集合,WPSet为<情感对象,情感词>词对集合;初始化如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:不处理elseifWordLabel=P或者当前词到了句子末尾:如果SS已找到:将SS放入SSSet;如果SSSet不为空并且SW已找到:将SSSet和SW放入WPSet;重新初始化elseifWordLabel=BA:如果CurrWord和SS为并列关系:将SS放入SSSet,SS设为CurrWord否则:将SS和CurrWord拼接成新的SSelseifWordLabel=BB:SW设为WordLabel,SS设为未找到;elseifWordLabel=EA:如果CurrWord和SS为并列关系:将SS放入SSSet,SS设为CurrWord否则:将SS和CurrWord拼接成新的SSelseifWordLabel=EB:SW设为CurrWord,再按照当前词标记为P的方式处理;所述的b步骤中句子结构特征包括:情感对象词义代码SSC、情感词词义代码SWC、是否存...

【专利技术属性】
技术研发人员:孙晓唐陈意叶嘉麒李承程任福继
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1