当前位置: 首页 > 专利查询>苏州大学专利>正文

一种情感词典构建方法及系统技术方案

技术编号:7759314 阅读:313 留言:0更新日期:2012-09-14 01:28
本发明专利技术涉及自然语言处理领域,公开了一种情感词典构建方法及系统。本方案公开的情感词典构建方法及系统,基于同义词词林,通过对同义词词林的检索,只需预先设定的少量种子词,就能获取大量情感词,从而获得扩展的种子词词集,并根据评价语料内的词语和种子词的PMI值及其所述词语的词性,计算所述词语的情感倾向值SO,并根据所述SO值的正负和绝对值大小,获知所述词语的情感极性及情感倾向程度,进而根据预设的数量,选择所述词语构建情感字典。使用该种方法及系统,不需要人工去寻找并确定情感词,节省了人力物力,同时,通过计算PMI值及SO值的方法,选择情感倾向程度较强的词语来构建情感词典,提高了构建情感词典的精度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别是涉及ー种情感词典构建方法及系统
技术介绍
随着信息化的迅速普及,网络得到了广泛的应用,人们通过论坛、博客和微博等网络平台,能够发表对于人物、事件、产品等各种观点、意见等的文本信息。为了有效处理这些信息,就需要进行文本情感分析,其中,需要进行情感分析的文本被称为评价语料,而进行情感分析的过程中,很重要的一点就是构建情感词典。构建情感词典,是文本情感分析过程中的一个基础任务,在构建情感词典时,词语、的情感极性是情感分类方法的基础,根据词语的情感极性,将词语分为正面词、负面词和中性词三种情感词,并将具有相同情感极性的词语汇集在一起,从而完成对情感词典的构建。例如,在中文的词语集中,将“喜欢”、“好”、“幸福”和“漂亮”等分为正面词,将“丑”、“厌恶”、“暴力”和“差”等分为负面词。现有的构建情感词典的方法,一种是由人工完成,在该种方法中,在给定词语后,由人工判断词语的情感极性;另外ー种方法,使用查找现有资源的方法,例如,使用知网资源获取词语的情感极性,知网(英文名称为HowNet)是ー个以汉语和英语的词语所代表的概念为描述对象,以掲示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,工作人员可以通过搜索知网中的资源,获知给定词语的情感极性。但是,专利技术人在本申请的研究过程中发现,采用人工判断词语的情感极性的方式,会花费大量的人力、物力;而采用查找现有资源的方式,由于资源的有限性,无法包括所有的词语,对于词语的情感极性分类效果欠佳,且不能随时更新词语,因而获得词语的情感极性的正确率不高,进而影响构建情感词典的精度。
技术实现思路
有鉴于此,本专利技术的目的在于提供ー种情感词典构建方法,以解决现有技术中的情感词典构建方法中,所具有的需要花费大量人力、物力,或者精度低的问题,具体实施方案如下ー种情感词典构建方法,包括获取包含正面词和负面词的基础种子词词集;获取所述基础种子词的同义词,并将所述同义词加入到所述基础种子词的词集中,以形成扩展后种子词词集;对评价语料进行分词处理,以获取多个词语,并确定获取的词语的词性;计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI ;根据所述词语与各个种子词的点互信息量PMI,及与所述词语的词性对应的參数值,获取所述词语的情感倾向值SO ;根据所述情感倾向值S0,选择预设数量的词语,并根据情感极性,将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。优选的,获取种子词的同义词,以获得扩展后种子词词集具体包括获取同义词词林;将所述各个种子词与所述同义词词林中的词语进行匹配查找,以获取所述种子词的同义词; 将所述同义词加入基础种子词的词集中,以获取扩展后种子词词集。优选的,计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI的方法具体为根据公式权利要求1.ー种情感词典构建方法,其特征在于,包括 获取包含正面词和负面词的基础种子词词集; 获取所述基础种子词的同义词,并将所述同义词加入到所述基础种子词的词集中,以形成扩展后种子词词集; 对评价语料进行分词处理,以获取多个词语,并确定获取的词语的词性; 计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI ; 根据所述词语与各个种子词的点互信息量PMI,及与所述词语的词性对应的參数值,获取所述词语的情感倾向值SO ; 根据所述情感倾向值S0,选择预设数量的词语,并根据情感极性,将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。2.根据权利要求I所述的方法,其特征在于,获取种子词的同义词,以获得扩展后种子词词集具体包括 获取同义词词林; 将所述各个种子词与所述同义词词林中的词语进行匹配查找,以获取所述种子词的同义词; 将所述同义词加入基础种子词的词集中,以获取扩展后种子词词集。3.根据权利要求I所述的方法,其特征在干,计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI的方法具体为 根据公式4.根据权利要求I所述的方法,其特征在于,获取所述词语的情感倾向值SO的方法具体为 根据公式5.根据权利要求4所述的方法,其特征在于,所述词性包括形容词、副词和其他词性的词,其中所述形容词所对应的參数值P为O. 6,所述副词所对应的參数值P为O. 3,其他词性的词的參数值P为O. I。6.根据权利要求I所述的方法,其特征在于,根据所述情感倾向值S0,选择预设数量的词语,构建情感词典的步骤包括 根据所述SO值的正负,将所述词语分成正面词和负面词; 按照所述正面词和负面词的SO值绝对值的大小,分别选择出符合预设数量,且绝对值较大的正面词和负面词; 由选择的所述正面词构建正面词子词典,所述负面词构建负面词子词典,并由所述正面词子词典和所述负面词子词典构建情感词典。7.—种情感词典构建系统,其特征在于,包括 种子词词集获取模块,用于获取包含正面词和负面词的基础种子词词集; 种子词词集扩展模块,用于获取所述种子词的同义词,并将所述同义词加入到所述种子词词集中,以形成扩展后种子词词集; 评价语料处理模块,用于对评价语料进行分词处理,以获取多个词语,并确定获取的词语的词性; 点互信息量PMI计算模块,用于计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI ; 情感倾向值SO计算模块,用于根据所述词语与所述各个种子词的点互信息量PMI与所述词语的词性对应的參数值,获取所述词语的情感倾向值S0,所述词性包括形容词、副词和其他词性的词; 情感词典构建模块,用于根据所述情感倾向值S0,选择预设数量的词语,并根据情感极性,将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。8.根据权利要求7所述的系统,其特征在于,所述种子词词集扩展模块包括 同义词词林获取单元,用于获取同义词词林; 同义词获取単元,用于将所述各个种子词与所述同义词词林中的词语进行匹配查找,以获取所述种子词的同义词; 扩展后种子词词集获取単元,用于将所述同义词加入原种子词的词集中,以获取扩展后种子词词集。全文摘要本专利技术涉及自然语言处理领域,公开了一种情感词典构建方法及系统。本方案公开的情感词典构建方法及系统,基于同义词词林,通过对同义词词林的检索,只需预先设定的少量种子词,就能获取大量情感词,从而获得扩展的种子词词集,并根据评价语料内的词语和种子词的PMI值及其所述词语的词性,计算所述词语的情感倾向值SO,并根据所述SO值的正负和绝对值大小,获知所述词语的情感极性及情感倾向程度,进而根据预设的数量,选择所述词语构建情感字典。使用该种方法及系统,不需要人工去寻找并确定情感词,节省了人力物力,同时,通过计算PMI值及SO值的方法,选择情感倾向程度较强的词语来构建情感词典,提高了构建情感词典的精度。文档编号G06F17/30GK102663139SQ20121013836公开日2012年9月12日 申请日期2012年5月7日 优先权日2012年5月7日专利技术者周国栋, 李寿山, 林莉媛 申请人:苏州大学本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山林莉媛周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1