一种面向点评数据的情感倾向性检测方法技术

技术编号:14658574 阅读:81 留言:0更新日期:2017-02-17 00:21
本发明专利技术涉及一种面向点评数据的情感倾向性检测方法,其步骤包括:1)获取点评数据,对其进行规范化处理;2)对规范化处理后的点评数据的句子进行分词处理;3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测分析的各类词语;4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。本发明专利技术针对点评文本的多变性和口语性等问题,提高了点评数据情感倾向性检测的效率和准确性。

【技术实现步骤摘要】

本专利技术属于信息技术、数据挖掘
,具体涉及一种面向点评数据的情感倾向性检测方法
技术介绍
随着电子商务的迅猛发展,互联网上的点评从逐渐进入人们视野,到慢慢影响网友的选择,再到对品牌的影响正一步步加深。以酒店业为例,酒店希望借助技术手段获取用户的点评反馈,用于指导酒店的品牌管理和运营管理,提升品牌形象和服务质量。用户希望查看别人的点评,明确酒店的优点和缺点,以此作为预订的重要参考。Tripadvisor研究显示,超过85%的用户非常重视酒店的口碑质量,近90%的用户在做出预订决策前查看用户点评。越来越多的用户乐于在互联网上分享自己的观点或体验,这类点评数据爆炸式增长,仅靠人工的方法难以应对在线海量点评的收集和处理。因此,迫切需要计算机帮助用户快速获取和整理这些点评信息,情感分析(SentimentAnalysis)技术应运而生。情感分析不仅是信息处理领域的研究热点,在产业界也引起了广泛关注。要分析点评的情感,首先要识别出点评中的有价值的情感信息要素,这包括:1)评价对象,如“酒店”、“价格”等;2)评价成分,如“非常好”、“还算干净”等。其中,评价成分包括情感词(如“好”、“干净”等)、程度副词(如“非常”等)、普通副词(如“大都”等)以及否定词(如“不”等),评价成分不仅表达了情感,还通过其修饰成分加强、减弱或置反了情感表达句的情感极性,从而使情感表达的更加丰富。情感词在情感分析中的重要性是不言而喻的。然而很多情况下,单独的情感词的极性是有歧义的,如“餐厅的价格很高”的“高”描述“餐厅价格”时表示贬义,而“餐厅员工工作效率很高”的“高”的描述“工作效率”时表示褒义。因此,在文本的情感分析中仅考虑情感词是远远不够的,还需要考虑评价对象与情感词的搭配,如<价格,高>,<工作效率,高>这样的二元搭配。上述各种情感信息要素以及搭配对于文本情感分析具有重要作用。如何从文本中分析出上述情感信息要素呢?分析的基础是要整理、积累一个较为完备的情感要素词典,包括各类情感要素的实例词及其属性(如极性)。有了情感要素词典作为基础,如何综合利用这些情感要素识别情感句呢?毕竟不是出现了情感要素就是情感句。由此可见,如何从点评文本中检测出情感句尚未得到很好的解决。具体而言,其所面临的问题集中在以下两个方面:一是点评文本的分析和理解如何克服语言的多变性。目前自然语言处理的很多技术还不能很好的处理语言的多变性问题,因此实现应对这种复杂变化是需要我们进一步解决的问题。二是词典的收集、整理。评价对象词(Obj)、评价属性词(Attr)、情感词(Sent)、程度副词(Dgr)、普通副词(Adv)、否定词(Neg)、插入词(Inter)等情感要素在不同领域中使用不同的词汇,相同词汇所具有的极性也许会不同,这些都是实际应用中急待解决的问题。
技术实现思路
本专利技术针对上述问题,提供一种面向点评数据的情感倾向性检测方法,用于挖掘点评数据中的用户观点。本专利技术采用的技术方案如下:一种面向点评数据的情感倾向性检测方法,包括如下步骤:1)获取点评数据,对其进行规范化处理;2)对规范化处理后的点评数据的句子进行分词处理;3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测的各类词语;4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。进一步地,步骤1)所述规范化处理,是采用基于规则的方法处理点评文本中的拼写错误,所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射;所述规则通过两种方法获取:一是根据现有经验知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文抽取相似字或词,通过人工校验确定正确的字串或词串。进一步地,步骤2)首先采用基于词典的最大匹配分词方法进行分词,然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;所述序列标注的分词方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,基于这样的标记序列确定句子的切分方式。进一步地,步骤3)所述要素包括点评数据中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词,以及关于城市、景点的词语等,在将句子中的要素识别出来后,标记上相应的类别标签。进一步地,步骤4)通过基于点评的自举方法提取句式模版,从而建立句式模版库。进一步地,步骤5)中,如果当前句中没有评价对象词或评价属性词,则选择上一句最后提及的评价对象或评价属性词引入到当前句;如果当前句中只有评价属性词,则当上一句出现评价对象时将其引入到当前句。进一步地,步骤6)中,所述最大熵模型通过建立条件概率模型预测不同情感类别并估计其概率,所述情感类别包括-1、0、1三类,分别表示差评、无情感、好评。与现有技术相比,本专利技术的有益效果如下:1)本专利技术的规范化处理步骤可以灵活处理点评中的口语化问题;采用基于词典的方法,很好地对领域文本进行分词,歧义时引入序列标注方法的分词在很大程度上缓解了词典分词方法的歧义问题;要素分析时对于各个要素的识别,以及句式模版的匹配,这些对于情感倾向性检测至关重要的线索通过自举方法得到,极大提高了资源构建的效率;指代消解规则的应用简单有效地缓解了口语化点评中常见的主语省略问题;最大熵模型灵活融合上下文特征线索对点评片段情感倾向性最终判定。2)针对点评文本的多变性和口语性,本专利技术既考虑了拼写错误等不规范的问题,还通过指代消解处理主语省略问题,并通过情感要素以及句式来捕获情感句的关键成分,最终通过统计模型融合多种线索对情感句进行检测。3)情感要素的词典整理依赖纯人工的方法,规模是不够的,效率也非常低。更好的方法是基于语料库的统计方法或机器学习方法,这种方法虽然会带来一些噪音,但这时再介入人工成本是比较低的。本专利技术通过基于点评语料的自举方法实现,这种机器学习方法效率高,可以在较短时间内整理得到较大规模的词典。附图说明图1是本专利技术的面向点评数据的情感倾向性检测方法的步骤流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步说明。本专利技术是一种面向点评数据的情感倾向性检测方法(或称情感倾向性分析方法),用于挖掘点评中的用户观点。本专利技术首先通过聚焦爬虫从各大主流点评网站获取在线点评数据。然后针对大规模点评,通过半自动方式整理语义词典以及句式库。最后,针对点评中的每个句子,进行分词等处理和分析,在此基础上提取关键词或关键句式作为特征,通过最大熵分类器实现情感倾向性检测和情感分类。图1是本专利技术方法的步骤流程图,主要包括如下步骤:步骤1:文本规范化。互联网点评文本常会出现拼写错误,对于这些问题,我们采用基于规则的方法处理。这些规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射。这种规则通过两种方法获取:一是根据现有经验知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文抽取相似字或词,通过人工校验确定本文档来自技高网
...
一种面向点评数据的情感倾向性检测方法

【技术保护点】
一种面向点评数据的情感倾向性检测方法,其特征在于,包括如下步骤:1)获取点评数据,对其进行规范化处理;2)对规范化处理后的点评数据的句子进行分词处理;3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测分析的各类词语;4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。

【技术特征摘要】
1.一种面向点评数据的情感倾向性检测方法,其特征在于,包括如下步骤:1)获取点评数据,对其进行规范化处理;2)对规范化处理后的点评数据的句子进行分词处理;3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测分析的各类词语;4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。2.如权利要求1所述的方法,其特征在于:步骤1)通过聚焦爬虫从各大主流点评网站获取在线点评数据。3.如权利要求1所述的方法,其特征在于:步骤1)所述规范化处理,是采用基于规则的方法处理点评文本中的拼写错误,所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射;所述规则通过两种方法获取:一是根据现有知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文的抽取相似字或词,通过人工校验确定正确的字串或词串。4.如权利要求1所述的方法,其特征在于:步骤2)首先采用基于词典的最大匹配分词方法进行分词,然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;所述序列标注的分词方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,基于这样的标记序列确定句子的切分方式。5.如权利要求4所述的方法,其特征在于:所述不同的位置类别标记,包括词首、词中、词尾和单字词,并采用条件随机场模型实现序列标注任务。6.如权利要求1所...

【专利技术属性】
技术研发人员:林小俊张猛暴筱
申请(专利权)人:北京众荟信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1