一种面向点评数据的情感倾向性检测方法技术

技术编号：14658574 阅读：81 留言：0更新日期：2017-02-17 00:21

本发明专利技术涉及一种面向点评数据的情感倾向性检测方法，其步骤包括：1)获取点评数据，对其进行规范化处理；2)对规范化处理后的点评数据的句子进行分词处理；3)对分词后的句子进行要素分析，识别出影响文本情感倾向性检测分析的各类词语；4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配；5)确定点评数据的句子中指代语对应的先行语，并恢复省略的主语；6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句，采用最大熵模型对候选情感句的句子极性进行判别，得到句子的情感倾向性。本发明专利技术针对点评文本的多变性和口语性等问题，提高了点评数据情感倾向性检测的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息技术、数据挖掘
，具体涉及一种面向点评数据的情感倾向性检测方法。
技术介绍
随着电子商务的迅猛发展，互联网上的点评从逐渐进入人们视野，到慢慢影响网友的选择，再到对品牌的影响正一步步加深。以酒店业为例，酒店希望借助技术手段获取用户的点评反馈，用于指导酒店的品牌管理和运营管理，提升品牌形象和服务质量。用户希望查看别人的点评，明确酒店的优点和缺点，以此作为预订的重要参考。Tripadvisor研究显示，超过85％的用户非常重视酒店的口碑质量，近90％的用户在做出预订决策前查看用户点评。越来越多的用户乐于在互联网上分享自己的观点或体验，这类点评数据爆炸式增长，仅靠人工的方法难以应对在线海量点评的收集和处理。因此，迫切需要计算机帮助用户快速获取和整理这些点评信息，情感分析(SentimentAnalysis)技术应运而生。情感分析不仅是信息处理领域的研究热点，在产业界也引起了广泛关注。要分析点评的情感，首先要识别出点评中的有价值的情感信息要素，这包括：1)评价对象，如“酒店”、“价格”等；2)评价成分，如“非常好”、“还算干净”等。其中，评价成分包括情感词(如“好”、“干净”等)、程度副词(如“非常”等)、普通副词(如“大都”等)以及否定词(如“不”等)，评价成分不仅表达了情感，还通过其修饰成分加强、减弱或置反了情感表达句的情感极性，从而使情感表达的更加丰富。情感词在情感分析中的重要性是不言而喻的。然而很多情况下，单独的情感词的极性是有歧义的，如“餐厅的价格很高”的“高”描述“餐厅价格”时表示贬义，而“餐厅员工工作效率很高”的“高”的描述“...
一种面向点评数据的情感倾向性检测方法

【技术保护点】
一种面向点评数据的情感倾向性检测方法，其特征在于，包括如下步骤：1)获取点评数据，对其进行规范化处理；2)对规范化处理后的点评数据的句子进行分词处理；3)对分词后的句子进行要素分析，识别出影响文本情感倾向性检测分析的各类词语；4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配；5)确定点评数据的句子中指代语对应的先行语，并恢复省略的主语；6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句，采用最大熵模型对候选情感句的句子极性进行判别，得到句子的情感倾向性。

【技术特征摘要】
1.一种面向点评数据的情感倾向性检测方法，其特征在于，包括如下步骤：1)获取点评数据，对其进行规范化处理；2)对规范化处理后的点评数据的句子进行分词处理；3)对分词后的句子进行要素分析，识别出影响文本情感倾向性检测分析的各类词语；4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配；5)确定点评数据的句子中指代语对应的先行语，并恢复省略的主语；6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句，采用最大熵模型对候选情感句的句子极性进行判别，得到句子的情感倾向性。2.如权利要求1所述的方法，其特征在于：步骤1)通过聚焦爬虫从各大主流点评网站获取在线点评数据。3.如权利要求1所述的方法，其特征在于：步骤1)所述规范化处理，是采用基于规则的方法处理点评文本中的拼写错误，所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射；所述规则通过两种方法获取：一是根据现有知识，即前人总结的常见拼写错误；二是根据每个字或词的上下文的抽取相似字或词，通过人工校验确定正确的字串或词串。4.如权利要求1所述的方法，其特征在于：步骤2)首先采用基于词典的最大匹配分词方法进行分词，然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；所述序列标注的分词方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，基于这样的标记序列确定句子的切分方式。5.如权利要求4所述的方法，其特征在于：所述不同的位置类别标记，包括词首、词中、词尾和单字词，并采用条件随机场模型实现序列标注任务。6.如权利要求1所...

【专利技术属性】
技术研发人员：林小俊，张猛，暴筱，
申请(专利权)人：北京众荟信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人