用于优化情感分类器的方法和设备技术

技术编号:7498533 阅读:261 留言:0更新日期:2012-07-10 23:14
本发明专利技术公开了一种用于优化情感分类器的方法和设备。该方法可以包括:基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;使用该组情感分类器对未标注语料进行标注;根据标注结果从未标注语料中提取可信标注语料;使用可信标注语料来更新已标注集合;以及利用更新的已标注集合训练该组情感分类器,以优化情感分类器。本发明专利技术的方法和设备可以消除情感分类偏置,并显著提高情感分类精度。

【技术实现步骤摘要】

本专利技术一般涉及信息处理领域,特别涉及用于优化情感分类器的方法与设备。
技术介绍
随着*吐2.0的广泛普及,过去由ffebl.O的信息传播模式即我说你听、我演你看、 我写你读的方式正在向用户成为信息产生的中心转变。相应地,越来越多的用户对于产品或服务质量的好坏做出评论,这种评论表达了用户自己的情绪,可以将其称为用户产生内容(User generated Content,UGC)。这些用户产生内容无论对于消费者或者对于厂家/商家都有重要的参考意义。基于其他用户的客观评价,消费者可以更快地确定购买决策,而厂家/商家可以根据用户的回馈更好地改进自己的产品或服务。对上述评论信息的分析的一个目的是从中提取用户的情感倾向,这项技术称为情感分类,它的目的就是对给定文本给出写该段话的人所表述的情感倾向正面或者负面。确切地反映用户的情感表达,才能对消费者和商家起到积极有效的作用,因此客观无分类偏置的情感分类技术将是非常重要的。情感分类是自然语言处理领域的一个多分类问题,从实际实现上通常有两类做法,一类是基于语料(corpus-based)的方法,另外一类是基于词典(lexicon-based)的方法。实验证明,这两类情感分类算法都有分类偏置(classification bias)问题。在实际系统中,消除分类偏置才可以更客观地反映用户的真实意图,因此情感分类的偏置问题是一个亟待解决的问题。对于上述问题,业界已经提出了一些相关解决方案,例如美国专利US20080249764 提出了一种使用分类器聚合来提高情感分类准确性的方法,从某种程度上降低了部分情感分类偏置。但是,现有技术没有对分类偏置做深入分析,也没有针对性地去解决这个问题, 例如美国专利US20080M9764仅仅通过聚合不同的分类器,也即采用更多的分类特征来提高分类精度,这并不能有效地解决如何消除情感分类偏置的问题。
技术实现思路
针对现有技术中存在的以上问题,本专利技术的目的在于提供了一种用于优化情感分类器的方法和设备,可以通过优化的情感分类器来消除情感分类偏置。根据本专利技术的第一方面,提供了一种用于优化情感分类器的方法,该方法可以包括基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;使用该组情感分类器对未标注语料进行标注;根据标注结果从未标注语料中提取可信标注语料; 使用可信标注语料来更新已标注集合;以及利用更新的已标注集合训练该组情感分类器, 以优化情感分类器。根据本专利技术的第二方面,提供了一种用于优化情感分类器的设备,该设备可以包括选择装置,用于基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;标注装置,用于使用该组情感分类器对未标注语料进行标注;提取装置,用于根据标注结果从未标注语料中提取可信标注语料;更新装置,用于使用可信标注语料来更新已标注集合;以及训练装置,用于利用更新的已标注集合训练该组情感分类器,以优化情感分类器。通过以下对根据本专利技术的优选实施方式的描述,并结合附图,本专利技术的其他特征以及优点将会是显而易见的。附图说明通过以下结合附图的说明,并且随着对本专利技术的更全面了解,本专利技术的其他目的和效果将变得更加清楚和易于理解,其中图1是按照本专利技术的一个实施例的用于优化情感分类器的方法的流程图;图2是按照本专利技术的另一个实施例的用于优化情感分类器的方法的流程图;以及图3是按照本专利技术的一个实施例的用于优化情感分类器的设备的框图。在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。具体实施例方式以下结合附图对本专利技术进行更详细的解释和说明。应当理解,本专利技术的附图及实施例仅用于示例性作用,并非用于限制本专利技术的保护范围。为了清楚起见,首先对本专利技术中所使用的术语作以解释。1.语料本专利技术的语料也称为自由文本,其可以是字、词语、句子、片段、文章等及其任意组I=I O未标注语料是没有进行情感类别标注的语料。已标注语料是已经标注了情感类别的语料。得到一个已标注语料意味着既可以得到这个语料,又可以得到该语料所被标注的情感类别。2.情感分类和情感分类器情感分类是自然语言处理领域的一个多分类问题。一般而言,情感分类通常是指通过对语料进行分析而标注其情感倾向,例如正面情感倾向或者负面情感倾向,从而将语料分类为正面情感倾向语料和负面情感倾向语料。另外,除了上述标注两个类别的方式之夕卜,也可以将情感标注为多个类别,由于本领域技术人员很容易将对于两个类别的处理扩展到多个类别的处理上,因此本专利技术主要对两个类别的标注进行描述。但是应该注意的是, 本专利技术并不限于将情感分类为两个类别的情况。目前,本领域技术人员经常使用以下情感分类方法,其一是基于语料的情感分类方法,其二是基于词典的情感分类方法。基于语料的方法是基于预先标注了情感类别的一批语料(例如,这批语料可以包括标注为正面情感倾向的文本集和标注为负面情感倾向的文本集),利用该批语料来训练通过机器学习的方法学习了分类算法的情感分类器,然后使用所训练的情感分类器对未标注情感类别的语料进行情感类别的标注。基于词典的方法是预先准备一个情感词典,将经常表述正面情感的词和负面情感的词事先选好,然后对于给定的未标注情感类别的语料统计正面词和负面词的次数,通过归一化来判断该语料对应的情感倾向。基于语料的方法和基于词典的方法都可以包含多种具体算法,而不仅仅是6一个特定算法。基于语料的方法例如可以是基于最大熵模型、基于决策树模型、基于 CRF(conditional Random Field)模型、基于神经网络模型或基于Naive Bayes模型等具体的情感分类方法。基于词典的方法例如可以是仅仅基于词典的情感分类方法或者基于词典及规则的情感分类方法等。情感分类器是利用各种情感分类算法来对语料进行情感类别的标注的工具。在本专利技术中,一个情感分类器可以与一种情感分类算法相对应,并且情感分类器可以基于已标注语料来进行训练,以便减小该情感分类器对未标注语料进行分类时产生的情感分类偏置。为了便于描述,下文有时也将情感分类器简述为分类器。3.情感分类偏置实验证明,基于语料的情感分类方法经常将一个具有正面情感的语料标注为负面情感;而基于词典的情感分类方法更倾向于将具有负面情感的语料标注为正面情感。可见, 上述基于语料或者基于词典的情感分类方法和分类器都避免不了情感标注错误。为了便于描述,在本专利技术中分类器将正面情感标注为负面情感这一错误称为负偏置,分类器将负面情感标注为正面情感这一错误称为正偏置,并将负偏置和正偏置统称为情感分类偏置。本专利技术涉及一种用于优化情感分类器的方法。该方法可以包括基于已标注集合从情感分类器集合中选择分类偏置差异大的一组情感分类器;使用该组情感分类器对未标注语料进行标注;根据标注结果从未标注语料中提取可信标注语料;使用可信标注语料来更新已标注集合;以及利用更新的已标注集合训练该组情感分类器,以优化情感分类器,进而消除情感分类偏置,提高情感分类精度。本专利技术的方法总体上具有自动感知标注错误的语料和能够自动调整情感分类器两方面特点。例如,本专利技术的一种实施方式可以首先对分类偏置差别大的一组分类器进行选择,该组分类器例如包括分类器A和分类器B,然后使用所选择的该组分类器对给定的未分类文档进行情感类别的标注,则可以将本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:胡长建邱立坤赵凯许洪志
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术