本发明专利技术公开了一种细粒度文本情感分析方法,步骤一:构建细粒度情感词典;步骤二:语句结构关系判断;步骤三:简单句的情感值评定。本发明专利技术可以提取出文本所包含的更多的用户情感相关信息,能更好的刻画用户内心的感受,用于支撑相关的应用研究,例如基于健康的用户情绪状态及变化情况分析。
【技术实现步骤摘要】
一种细粒度文本情感分析方法
本专利技术属于英文文本情感分析
,涉及一种细粒度文本情感分析方法,具体地说,涉及一种针对评论文本的细粒度情感分析方法。
技术介绍
人类的情感是复杂而又多方面的。由于情感的复杂性和与其他外部事物的关系,它属于心理学中最具挑战性的现象。了解一个人的当前的情绪的传统方式有多种:如可以咨询其主观感受,观察其脸部表情或行为上的变化,以及其生理变化。事实上,一个人的情绪是复杂的,并不能被直接测量,仅能通过它们的外在表现形式来识别,如此就催生出各种用于识别人类情感的方法。在一般情况下,最常见的识别一个人的情绪反应的方法大致可以分为三类:(1)自我报告,(2)生理学方法,(3)行为观察。基于传统方法监测个人的情绪状态需要大量的人力和物力,难以获得大量用户长时间的情绪相关数据。随着在线社交网络的不断发展,其拥有的用户数量不断增大,人们开始习惯经常将自己的所见所感分享给线上好友,由此研究者可以通过社交网站的API获取大量用户情绪相关数据,基于文本情感分析技术抽取出用户的情绪状态。文本情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值。专利200910219161.9根据不同主题文本的语言表达方式估计主题语言模型,计算待处理文本的语言模型与正负情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本。专利200910083522.1根据训练文本的标签确定测试文本的初始情感分,基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化,以解决跨领域的文本情感倾向性分析问题。专利201210088366.X基于正负情感词典判断所有包含主题词的句子的极性,计算结果集合中正面句子极性之和及负面句子极性之和,从而得出整条微博的情感倾向性。专利201310000734.5通过构造一种具有Two-Level(双层)结构的DCRF模型实现了实体级别的情感倾向性判断,专利201310036034.1利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系实现细粒度情感强度量化的统计和计算。目前已有的情感分析技术主要将文本包含的用户情感分为两类:正向和负向,在情感类别的划分方面属于粗粒度的文本情感分析,丢失了大量用户情感相关信息。为了充分获得用户评论所含信息,更好的刻画用户的感受,本专利技术对评论文本做进一步的细粒度情感分析,即将正负面倾向分别进一步划分,例如负面情绪可以是生气,也可以是悲伤等。
技术实现思路
本专利技术的目的在于克服上述技术存在的缺陷,提供一种细粒度文本情感分析方法,该方法可以更加充分获得用户评论所含情感信息,可更好的支撑相关的应用研究,例如基于健康的用户情绪状态及变化情况分析。其具体技术方案为:步骤一:构建细粒度情感词典选取国际级公认的基准情感分类作为细粒度情感分类,并将基准情感词作为各类别的种子情感词,通过wordNet(由Princeton大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典)查找其同义词集合,并放入对应的类别,完成细粒度情感词典的第一步扩建;wordNet将单词分为四类:名词、动词、副词和形容词;由基准情感词扩展得到的名词性情感集合,并按照相同的方式根据基准情感词的形容词、动词和副词形式,分别构建成其形容词、动词和副词形式的情感集合;同类别的情感集合,除了词性的差异之外,并不影响情感值的计算,则将一个类别下的情感集合视为一个大类,从而完成细粒度情感词典的第二步扩建;至此,构建的细粒度情感词典还无法覆盖大部分的情感词汇;将其余情感词如何归类到细粒度情感类别的问题,转换为分析其与基准情感词在概念层次上基于常识的相似性,并将其分配到相似性最高的基准情感词所代表的情感类别中;最后分析归类结果,并完善可能存在的缺陷;至此完成细粒度情感词典的扩建;步骤二:语句结构关系判断判断语句中是否有连词,如果有,则表示该句为复合句,根据句间关系规则获得该连词表示的语句结构关系及语句情感值的计算规则;如果没有,则该语句是简单句;步骤三:简单句的情感值评定如果是复合句,则拆分为两个分句进行处理;如果为简单句,则直接计算其情感值;现在,考虑简单句的情感值评定方法,评论情感计算要考虑主题词相关性,与主题词无关的情感词会给情感计算带来干扰;而主题主要通过语句的主题(主语和宾语)体现,则只需考虑与主题相关的名词性和形容词性情感特征词;根据句子结构、依赖关系、情感词褒贬度及相关副词修饰强度,计算出简单句的情感值;对于评论文本经常出现的不完整短句,利用单词词性,提高依赖关系判断的准确性;当情感词前的修饰短语过长时,将句子结构、单词词性及依赖关系结合起来,具体算法如下:先探测依赖关系,找出主题词,进而找出依附于主题词的修饰关系,根据句子结构分析的结果得到主题词与其修饰短语构成的名词性短语,然后分析此名词性短语的结构和修饰短语所包含的词的词性,得出正确的修饰关系;步骤四:评论文本细粒度情感计算结合句型和句间关系获得语句情感值;所有语句的情感之和为评论文本的整体情感值。与现有技术相比,本专利技术的有益效果是:可以提取出文本所包含的更多的用户情感相关信息,能更好的刻画用户内心的感受,用于支撑相关的应用研究,例如基于健康的用户情绪状态及变化情况分析。附图说明图1为本专利技术的细粒度情感词典构建方法流程图;图2为本专利技术的文本细粒度情感分析方法流程图;图3为本专利技术实例中的例句句子结构图。具体实施方式下面结合附图和具体实施例对本专利技术的技术方案作进一步详细地说明。本专利技术的细粒度情感词典构建方法实现流程如图1所示,详细步骤如下:步骤101:设定基准情感类别及种子情感词。迄今为止,心理学界对情感的划分还没有一个公认的标准,本专利技术以学者Ekman的著名6基准情感为例,具体包括:happiness(高兴),sadness(悲伤),anger(生气),fear(恐惧),surprise(惊喜)anddisgust(厌恶)。首先根据将6基准情感词作为各类别的种子情感词,通过wordNet查找其同义词集合,并放入对应的类别,完成细粒度情感词典的第一步扩建。步骤102:根据同义词扩展情感词典。wordNet将单词分为四类:名词、动词、副词和形容词。我们已经得到由6基准情感词扩展得到的名词性情感集合,将按照相同的方式根据6基准情感词的形容词、动词和副词形式,分别构建成其形容词、动词和副词形式的情感集合。例如,“joy(欢乐)”和“joyful(快乐)”都属于“happiness(高兴)”情感类别,但分属于两个情感集合,joy属于名词性集合,joyful属于形容词性集合。同类别的情感集合,除了词性的差异之外,并不影响情感值的计算,则本专利技术将一个类别下的情感集合视为一个大类,从而完成细粒度情感词典的第二步扩建。步骤103:基于通用常识库扩展情感词典。至此细粒度情感词典总共包含1000多个单词,这对于分析文本情感倾向来说明显不足,还有大量的表达人们情感的词未被覆盖。例如表达出明显情感的动词cry(哭),它无法通过前面的情感集合种子词语同义词扩展的方式,加入到情感词典。基于常识我们通常会认为cry(哭)与sad(悲伤)和angry(生气)的关联较大,它经常表达出主体悲伤或愤怒的情绪。在对于cry进本文档来自技高网...

【技术保护点】
一种细粒度文本情感分析方法,其特征在于,包括以下步骤:步骤一:构建细粒度情感词典选取国际级公认的基准情感分类作为细粒度情感分类,并将基准情感词作为各类别的种子情感词,通过wordNet查找其同义词集合,并放入对应的类别,完成细粒度情感词典的第一步扩建;wordNet将单词分为四类:名词、动词、副词和形容词;由基准情感词扩展得到的名词性情感集合,并按照相同的方式根据基准情感词的形容词、动词和副词形式,分别构建成其形容词、动词和副词形式的情感集合;同类别的情感集合,除了词性的差异之外,并不影响情感值的计算,则将一个类别下的情感集合视为一个大类,从而完成细粒度情感词典的第二步扩建;至此,构建的细粒度情感词典还无法覆盖大部分的情感词汇;将其余情感词如何归类到细粒度情感类别的问题,转换为分析其与基准情感词在概念层次上基于常识的相似性,并将其分配到相似性最高的基准情感词所代表的情感类别中;最后分析归类结果,并完善可能存在的缺陷;至此完成细粒度情感词典的扩建;步骤二:语句结构关系判断判断语句中是否有连词,如果有,则表示该句为复合句,根据句间关系规则获得该连词表示的语句结构关系及语句情感值的计算规则;如果没有,则该语句是简单句;步骤三:简单句的情感值评定如果是复合句,则拆分为两个分句进行处理;如果为简单句,则直接计算其情感值;现在,考虑简单句的情感值评定方法,评论情感计算要考虑主题词相关性,与主题词无关的情感词会给情感计算带来干扰;而主题主要通过语句的主语和宾语体现,则只需考虑与主语和宾语相关的名词性和形容词性情感特征词;根据句子结构、依赖关系、情感词褒贬度及相关副词修饰强度,计算出简单句的情感值;对于评论文本经常出现的不完整短句,利用单词词性,提高依赖关系判断的准确性;当情感词前的修饰短语过长时,将句子结构、单词词性及依赖关系结合起来,具体算法如下:先探测依赖关系,找出主题词,进而找出依附于主题词的修饰关系,根据句子结构分析的结果得到主题词与其修饰短语构成的名词性短语,然后分析此名词性短语的结构和修饰短语所包含的词的词性,得出正确的修饰关系;步骤四:评论文本细粒度情感计算结合句型和句间关系获得语句情感值;所有语句的情感之和为评论文本的整体情感值。...
【技术特征摘要】
1.一种细粒度文本情感分析方法,其特征在于,包括以下步骤:步骤一:构建细粒度情感词典选取国际级公认的基准情感分类作为细粒度情感分类,并将基准情感词作为各类别的种子情感词,通过wordNet查找其同义词集合,并放入对应的类别,完成细粒度情感词典的第一步扩建;wordNet将单词分为四类:名词、动词、副词和形容词;由基准情感词扩展得到了名词性情感集合,按照相同的方式根据基准情感词的形容词、动词和副词形式,分别构建成其形容词、动词和副词形式的情感集合;同类别的情感集合,除了词性的差异之外,并不影响情感值的计算,则将一个类别下的情感集合视为一个大类,从而完成细粒度情感词典的第二步扩建;至此,构建的细粒度情感词典还有大部分的情感词汇无法覆盖;将其余情感词如何归类到细粒度情感类别的问题,转换为分析其与基准情感词在概念层次上基于常识的相似性,并将其分配到相似性最高的基准情感词所代表的情感类别中;最后分析归类结果,并完善可能存在的缺陷;至此完成细粒度情感词典的扩建;步骤二:语句结构关系判断判断语句中是否有连词,如果有,...
【专利技术属性】
技术研发人员:於志文,夏云云,郭斌,周兴社,王柱,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。