情感倾向性分析方法和装置制造方法及图纸

技术编号:6840339 阅读:211 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于分析对研究对象的情感倾向性的方法和装置。所述方法包括:获取粗粒度的情感倾向性;获取细粒度的情感倾向性;以及将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中获取细粒度的情感倾向性的步骤包括:基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中获取粗粒度的情感倾向性的步骤包括:基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。

【技术实现步骤摘要】

本专利技术总体上涉及信息处理领域,尤其涉及一种用于分析对研究对象的情感倾向性的方法和装置。
技术介绍
在当前的信息时代,越来越多的信息以电子信息的方式出现。例如随着互联网的快速发展,越来越多的人喜欢在网上发表他们对事情的意见,因而在网络上出现大量包含倾向性的评论信息。人们希望通过信息处理手段来获取这些电子信息中包含的情感倾向性。例如,在购买电子商品之前,人们会希望先得知别人对于该商品的评价是好是坏。政府部门会希望获得人们对某一项新政策的反馈信息。如何分析和监测电子评论信息,如何减轻人们阅读大量相关评论信息的工作,成为了信息处理领域中的一个研究热点。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术旨在实现以比较高的准确度来分析对于研究对象的情感倾向性。为此,本专利技术的一个目的是提供一种用于分析情感倾向性的方法和装置,借助该方法和装置可以比较高的准确度来判断对于研究对象的情感倾向性。本专利技术的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质及计算机程序产品。为了实现上述目的,根据本专利技术的一个方面,提供了一种用于分析对研究对象的情感倾向性的方法,包括获取粗粒度的情感倾向性;获取细粒度的情感倾向性;以及将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中获取细粒度的情感倾向性的步骤包括基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中获取粗粒度的情感倾向性的步骤包括基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。根据本专利技术的另一个方面,提供了一种用于分析对研究对象的情感倾向性的装置,包括粗粒度情感倾向性获取器,其获取粗粒度的情感倾向性;细粒度情感倾向性获取器,其获取细粒度的情感倾向性;以及情感倾向性结合器,其将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中细粒度情感倾向性获取器基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中粗粒度情感倾向性获取器基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。依据本专利技术的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。在本专利技术所提出的方案中,结合了粗粒度分析和细粒度分析的优点,因而提高了情感倾向性分析的性能。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1示出了根据本专利技术的一个实施例的用于分析对研究对象的情感倾向性的方法的流程图;图2示出了用于获取细粒度的情感倾向性的过程的流程图;图3示出了根据本专利技术的一个实施例的用于分析对研究对象的情感倾向性的装置的示意性结构图;图4示出了细粒度情感倾向性获取器的示意性结构图;图5示出了在其中可以实现根据本专利技术实施例的方法和/或装置的通用个人计算机的示例性结构的方框图。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。目前,为了在文档级别上分析对研究对象的情感倾向性,主要是以文档整体作为研究对象,将情感倾向性判断归结为情感分类问题,采用机器学习的方法,利用人工标注文本倾向性的训练语料、基于一元(Unigram)和二元(Bigram)等特征以及采用贝叶斯 (Bayesian) (n|fi|/l (SupportVector Machine)(Maximum Entropy)器,或者利用情感倾向性词典,通过将文档中的词和短语的倾向性进行平均,来判断文档的倾向性。也就是说,现有技术中主要在粗粒度的水平上来分析文档级别的情感倾向性。专利技术人注意到,一个文档中可能包含多个主题,对每个主题可能具有不同的情感。 因此仅仅在文档粒度上分析情感倾向性可能不能达到满意的精确率。例如对于某个电子产4品如手机,其包括多个部件,例如屏幕、按键、色彩等等。这些部件的重要程度彼此不同,并且对于每个部件都可能存在不同的情感倾向性,而文档粒度的分析并未对此加以考虑。因此,本专利技术提出了从多个粒度来衡量情感倾向性的方案,其中不但考虑了文档整体的倾向性,还针对所给定的主题,获取该主题的细粒度的情感倾向性,并采用组合的方式对得到的结果进行分析,从而得到最终的结果。图1是示出了根据本专利技术一个实施例的用于分析对研究对象的情感倾向性的方法的流程图。需要说明的是,在执行根据图1所示的方法之前,已经获取了给定主题的文档信息。例如,可以首先接收从网络上收集到的各种商品评论信息。在此,可以采用现有的各种信息收集方法,例如,采用面向互联网的网络爬虫的方式,或者采用指定数据来源的方式, 来定期地自动从网络上收集评论信息。随后可以对所收集到的评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得包括在所收集到的评论信息中的众多评论语句的词、词性向量。在此可以采用已有的自然语言处理方法来对评论信息进行预处理。并且,对于上述处理之后的文档信息进行了特征选择,从全体特征集合中选择出对分类有较大贡献的特征组成特征子集,并且尽可能不失去原有数据价值。例如,在对评论信息进行分词等处理之后,在特征集合中包括分词处理得到的所有词,这些词中通常只有一部分对于分类是有用的。因此可以利用文档频度、互信息、信息增益、CHI统计、信息增益等,从不同的方面来对特征对文档的重要程度进行度量,以选择出对分类有较大贡献的特征组成特征子集。本专利技术采用向量空间模型进行文本的形式化表示,采用文本中出现的词特征作为文本的特征项。为了分析情感倾向性,除包含主题信息的特征外,还引入了情感词典,获取了情感信息特征。例如,在对于手机这种电子产品的评论信息中,“清晰”可能具有褒义的情感信息特征,而“模糊”可能具有贬义的情感信息特征。上述预处理是本领域技术人员所熟知的,因此这里不再进一步详述。在上述处理之后,本专利技术提出了一种用于分析对研究对本文档来自技高网...

【技术保护点】
1.一种用于分析对研究对象的情感倾向性的方法,包括:-获取粗粒度的情感倾向性;-获取细粒度的情感倾向性;以及-将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中获取细粒度的情感倾向性的步骤包括:基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中获取粗粒度的情感倾向性的步骤包括:基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。

【技术特征摘要】

【专利技术属性】
技术研发人员:张姝贾文杰夏迎炬孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1