一种基于认知结构模型的文本情感类型识别方法及装置制造方法及图纸

技术编号:9434562 阅读:150 留言:0更新日期:2013-12-12 00:36
本发明专利技术公开了一种基于认知结构模型的文本情感类型识别方法及装置,该方法包括:对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;对所构建的情感维度词典进行求精,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,得到相应的情感类型。本发明专利技术的上述方案设计思路、可解释性、使用灵活性及有效性上均明显优于已有方法,可用于商务智能、社情舆情、决策评估等领域面向文本的情感分析与识别。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于认知结构模型的文本情感类型识别方法及装置,该方法包括:对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;对所构建的情感维度词典进行求精,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,得到相应的情感类型。本专利技术的上述方案设计思路、可解释性、使用灵活性及有效性上均明显优于已有方法,可用于商务智能、社情舆情、决策评估等领域面向文本的情感分析与识别。【专利说明】一种基于认知结构模型的文本情感类型识别方法及装置
本专利技术属于计算机科学技术中的观点挖掘和情感分析领域,尤其涉及一种基于情感的认知结构模型,采用统计方法构建情感维度词典,自动识别出文本中的多种情感类型的方法及其装置。
技术介绍
观点挖掘和情感分析在社会公共安全、商务智能、社情舆情等领域具有十分重要的应用价值。近年来,社会媒体(人人网、科学网、博客、微博、微信等)在互联网中的蓬勃发展导致了用户产生的内容在数量上呈爆炸式增长。用户产生的内容中通常包含一定量的情感,能够为社会、经济、政治、文化相关的多个领域应用提供关键信息和决策支持。目前观点挖掘和情感分析方法主要是识别观点的正负极性和文本中多种情感类型。识别观点正负极性的方法主要包括文档级、语句级、基于情感对象特征的识别方法。Turney (ACL, 2002)提出一种利用非监督学习方法计算词之间的互信息(PMI)来判断整个文档的正负极性。Pang等(ACL,2002)提出采用多种机器学习方法分类每篇电影评论的正负极性。Wiebe等(Computational Linguistics, 2004)通过大量数据集学习线索和特征,区分主观观点和客观事实,并在语句级判断观点的正负极性。张长利等(JASIST,2009)提出利用词之间的依赖关系分析中文语句的正负倾向性。Hu等(SIGKDD,2004)利用频繁挖掘算法获得情感对象特征,再利用语义词典确定情感词的正负极性,从而输出针对每个情感对象特征的相关正负评论。文本中情感类型的识别目前以分类方法为主。Mishne (SIGIR,2005)提出一种基于特征的学习方法分类博文中的情感类型。Alm等(ACL,2005)提出利用与Mishne相似的方法分类叙事文本中的基本情感类型。Mostafa在博士论文(2008)中提出用大量手工标注的数据,基于主要的情感变量,计算语句中几乎所有词的情感变量值,进而计算出整个语句的情感。其中,Mostafa公开的方案不但需要大量人力标注数据,而且不加区分地计算句子中出现的词,因而导致该方法的效率和性能较低。
技术实现思路
本专利技术要解决的技术问题是:给定大量的文本数据集,结合情感认知理论,自动识别出文本中所包含的主要情感类型。为了识别文本中丰富的情感类型,同时尽可能避免手工标注等费时费力的方法,本专利技术提出了一种基于认知结构模型的文本情感类型识别方法,其包括:步骤1、对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建不同的情感维度词典;其中,每个情感维度词典具有一个确定的情感维度值;步骤2、对所构建的情感维度词典进行求精得到高质量的情感维度词典,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;步骤3、基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,生成相应的情感类型。本专利技术还公开了一种基于认知结构模型的文本情感类型识别装置,其包括:情感维度词典构造模块,其用于对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;其中,不同的情感维度词典具有各自的情感维度值;情感维度词典求精模块,其用于对所构建的情感维度词典进行求精得到高质量的情感维度词典,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;情感类型产生模块,其用于基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,生成相应的情感类型。与现有技术相比,本专利技术提出的基于认知结构模型来识别文本情感类型的方法由于利用了情感的认知结构理论,不但可以输出丰富的情感类型,而且所需标注的数据量非常少。因此,在输出结果的可解释性、使用灵活性及有效性方面较已有方法具有明显的优势。基于认知心理学领域成熟的情感认知结构模型,自动识别文本中所包含的主要情感类型;采用统计方法,基于句法依存关系和通用语义词典,通过少量的标注数据自动构建情感维度词典;赋予文本情感分析更深层次的认知结构关联,从而给情感类型的输出一个更加精细的符合认知心理学模型的合理解释。【专利附图】【附图说明】图1是本专利技术中基于认知结构模型的文本情感类型的识别方法流程图;图2是利用本专利技术提出的文本情感类型生成过程的示例图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术以认知心理学中经典的情感认知结构模型(以OCC认知结构模型为代表)为理论基础,建立自动识别文本中情感类型的方法。该模型可以描述多种不同情感类型的认知结构,在情感的计算建模中有着非常广泛的应用。模型中每个情感类型的出现都由一定的条件触发,这些条件可以用不同的情感维度值来表达,其中“合意性(Desirability) ”、“褒贬性(Praise-/Blame_worthiness) ” 和“可能性(Likelihood) ”是该模型中三个最为重要的情感维度变量。“合意性”与主体的目标相关联,“褒贬性”与行为是否符合社会道德标准相关联,而“可能性”则表示对事件发生的期望。在情感认知结构理论中,每个情感维度变量有不同的取值。“合意性”维度的取值包括“合意的(Desirable) ”和“不合意的(Undesirable) ”。当某些事件的发生有利于最终目标的实现时,这种情况对于主体而言是合意的;反之则是不合意的。类似地,“褒贬性”维度的取值有“值得称赞的(Praiseworthy) ”和“应受责备的(Blameworthy)”。“可能性”维度有“可能的(Likely)”和“确定的”这两个取值。情感维度变量的不同取值及其组合可以生成不同的情感类型。例如,如果“合意的”事件的可能性是“确定的”,引发“高兴”情感;否则引发“希望”。如果个体“值得表扬的”行为带来合己意的行为后果,则导致“骄傲”情感的产生。本专利技术的工作可以生成六种主要情感类型:高兴(Joy)、悲伤(Distress)、希望(Hope)、恐惧(Fear)、骄傲(Pride)和羞耻(Shame)。为此,本专利技术提出了一种基于认知结构模型的文本情感类型的识别方法。该方法中,文本中情感类型的分析识别基于认知理论中的情感认知结构模型,模型中主要通过情感维度值来确定情感类型,因此,建立文本情感类型识别系统的关键是自动构建高质量的情感维度词典。图1示出了本专利技术中基于认知结构模型的文本情感类型的识别方法流程图。如图1所示,该方法包括:步骤1、面向海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;步骤本文档来自技高网
...

【技术保护点】
一种基于认知结构模型的文本情感类型识别方法,其包括:步骤1、对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建不同的情感维度词典;其中,每个情感维度词典具有一个确定的情感维度值;步骤2、对所构建的情感维度词典进行求精得到高质量的情感维度词典,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;步骤3、基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,生成相应的情感类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛文吉曾大军皇甫璐雯王磊
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1