文本细粒度情感分析方法及装置制造方法及图纸

技术编号:8593939 阅读:412 留言:0更新日期:2013-04-18 07:06
本发明专利技术公开了一种文本细粒度情感分析方法,包括如下步骤:情感词极性强度量化计算;评价对象属性及其情感表达元素的联合识别;细粒度属性分类及其情感计算。本发明专利技术还公开了一种文本细粒度情感分析装置,包括评论数据采集及预处理模块、数据处理模块、数据分析模块、信息展示模块。本发明专利技术的细粒度情感分析方法采用的三大步骤有如下优点:(1)情感词极性强度量化计算步骤,在正确率上提高了将近30%;(2)评价对象属性及其情感表达元素的联合识别,针对特定情感分析应用领域,其联合识别正确率达到了80%以上;(3)细粒度属性分类及其情感计算利用细粒度属性分类,可以提升情感计算整体性能2.5%以上。

【技术实现步骤摘要】

本专利技术属于计算机应用
,具体的是一种主观性文本的细粒度情感分析方法和装置,可应用于商务网站的商品评论、企业或政府部门的网络舆情分析。
技术介绍
随着互联网的飞速发展,特别是Web2. O技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第30次中国互联网络发展状况统计报告》(CNNIC,2012)的数据显示,截至2012年6月,我国网络用户总数量已经达到5. 38亿,网民规模较2011年底增长2450万人,互联网普及率为39. 9%。如此庞大且快速增长的网络用户群体加上Web2. O模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等坐寸ο商品评论中的情感倾向性分析逐渐成为当前的研究热点。它的研究目的是利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供了直观的针对商品各个特性的网络评价报告。目前,一方面情感信息在互联网上呈爆炸式增长,另一方面情感信息对普通消费者,公司组织,和国家政府等各级别的用户都有重要作用,如何帮助用户方便快捷地找到所需的情感信息,成为当前需要迫切解决的问题之一。情感分析任务正是适应这种需求,希望架设一个用户到情感信息的桥梁,使用户能有效获取情感信息。通过对网络上各种信息,特别是主观性文本的倾向性分析可以更好地理解用户的消费习惯,分析热点事件的舆情,为企业、政府等机构提供重要的决策依据。众所周知,当面对商品评论时,用户更希望了解产品各个方面的情感倾向,这更有利于他们的综合判断和抉择,而传统的情感分析往往是面向篇章和句子的粗粒度分析方法,不能有效解决此类需求,这就需要我们应随着互联网的飞速发展,特别是Web2. O技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第30次中国互联网络发展状况统计报告》(CNNIC,2012)的数据显示,截至2012年6月,我国网络用户总数量已经达到5. 38亿,网民规模较2011年底增长2450万人,互联网普及率为39.9%。如此庞大且快速增长的网络用户群体加上Web2. O模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。商品评论中的情感倾向性分析逐渐成为当前的研究热点。它的研究目的是利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供了直观的针对商品各个特性的网络评价报告。目前,一方面情感信息在互联网上呈爆炸式增长,另一方面情感信息对普通消费者,公司组织,和国家政府等各级别的用户都有重要作用,如何帮助用户方便快捷地找到所需的情感信息,成为当前需要迫切解决的问题之一。情感分析任务正是适应这种需求,希望架设一个用户到情感信息的桥梁,使用户能有效获取情感信息。通过对网络上各种信息,特别是主观性文本的倾向性分析可以更好地理解用户的消费习惯,分析热点事件的舆情,为企业、政府等机构提供重要的决策依据。众所周知,当面对商品评论时,用户更希望了解产品各个方面的情感倾向,这更有利于他们的综合判断和抉择,而传统的情感分析往往是面向篇章和句子的粗粒度分析方法,不能有效解决此类需求,这就需要我们应用细粒度的情感分析方法来实现。目前情感分析方法大致有两类。第一种是基于规则的方法。主要先根据情感词典找出文本中出现的情感词,然后进行简单的情感极性统计,根据最终得分与事先设定阈值比较得出情感极性结论,一般用于篇章级别的情感分析。第二种是基于机器学习的方法。通过对大量标注语料的训练,生成情感分类器,用来对测试文本进行分类。(I)基于规则的方法。目前的方法主要是设计规则提取情感词和极性判定,然后对所有的情感词进行简单情感极性统计求得文本的整体情感极性,该方法更多的应用于篇章的情感分析。另外,通过计算词语的语义倾向,综合考虑极性元素分布、密度和语义强度进行情感词的扩展,进一步修正文本的整体情感极性。(2)基于机器学习的方法。这种方法主要使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征,使用基于机器学习的分类方法进行情感/倾向性分析。常用的分类方法有中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。一般·过程是首先通过对训练文档进行手工标注,生产训练模型,然后进行测试文档的预测。该方法目前在句子级别的情感分析中有广泛的应用 这两类方法进行文本情感分析时,无论是句子,还是篇章,都强依赖于情感词典,因此,情感词典的好坏直接影响情感分析的正确性,而目前更多的情感词典都是通过手工构建的,工作量巨大,同时随着互联网的发展,新的情感词层出不穷,所以靠一次性的情感词典构建是远远不够的,同时目前的情感词典往往还缺少极性强度的量化,很难满足情感计算的需求。另一方面,在具体的情感分析过程中,现有方法一般只考虑词的特性,对句子分词、词性标注后,利用词性的特点进行属性和情感词的识别,而缺乏对句子的整体语义理解,这样导致识别效率不高。
技术实现思路
为了解决现有技术中存在的上述技术问题,本专利技术提供了一种文本细粒度情感分析方法,包括如下步骤情感词极性强度量化计算;评价对象属性及其情感表达元素的联合识别;细粒度属性分类及其情感计算。进一步的,所述情感词极性强度量化计算包括基础情感词的极性强度量化计算和复合情感词的极性强度量化计算。进一步的,所述基础情感词的极性强度量化计算包括字的情感值计算,采用如下公式: WS爲' -5---1--⑴ β +/ /-1/-本文档来自技高网
...

【技术保护点】
一种文本细粒度情感分析方法,包括如下步骤:情感词极性强度量化计算;评价对象属性及其情感表达元素的联合识别;细粒度属性分类及其情感计算。

【技术特征摘要】
1.一种文本细粒度情感分析方法,包括如下步骤情感词极性强度量化计算;评价对象属性及其情感表达元素的联合识别;细粒度属性分类及其情感计算。2.如权利要求1所述的文本细粒度情感分析方法,其特征在于所述情感词极性强度量化计算包括基础情感词的极性强度量化计算和复合情感词的极性强度量化计算。3.如权利要求2所述的文本细粒度情感分析方法,其特征在于所述基础情感词的极性强度量化计算包括字的情感值计算,采用如下公式4.如权利要求3所述的文本细粒度情感分析方法,其特征在于所述基础情感词的极性强度量化计算还包括基础词的情感值计算,采用如下公式5.如权利要求2所述的文本细粒度情感分析方法,其特征在于所述复合情感词的极性强度量化计算分为基础情感词的叠词;基础情感词+基础情感词;否定词+基础情感词;程度修饰词+基础情感词;否定词+程度修饰词+基础情感词或程度修饰词+否定词+基础情感词,采用如下公式计算6.如权利要求1所述的文本细粒度情感分析方法,其特征在于所述评价对象属性及其情...

【专利技术属性】
技术研发人员:施寒潇厉小军
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1