当前位置: 首页 > 专利查询>苏州大学专利>正文

一种主观文本和客观文本分类方法及装置制造方法及图纸

技术编号:7021084 阅读:240 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种主观文本和客观文本分类方法及装置,该发明专利技术对不平衡训练样本进行多次欠采样,并对欠采样后的训练集进行训练,从而构建出多个基分类器,进而利用基分类器对待分样本进行分类,最后将所有分类结果进行统计得到最终的分类结果。本发明专利技术实施例采用多次欠采样能够充分利用样本,训练欠采样训练集时使用不同的机器学习方法,构建出差异性大的基分类器。解决了样本不平衡给机器学习分类方法带来的不利影响,提高了分类效果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
及模式识别领域,尤其涉及一种主观文本和客观文本分类方法及装置
技术介绍
主客观分类是将文本分为主观性文本或者客观性文本的任务。所谓主观性文本是指对于非事实进行描述的文本。在文本中会带有发表者的个人情感倾向。所谓客观性文本是指作者对于事件、对象等进行基于事实的描述,不带有个人的好恶和偏见。例如“我今天买了一台笔记本,机子超级漂亮,我非常喜欢”,这句话中的前半句“我今天买了一台笔记本”为一客观句而后半句“机子超级漂亮,我非常喜欢”为主观句。主客观分类任务就是要将文本分成主观和客观部分。该任务是自然语言处理技术中的一个基础任务,实现文本的主客观计算机自动分类能够更好的帮助我们分析目前的浩瀚文本信息中的主观信息,并能帮助其他进一步的情感分析任务,例如情感倾向性分类。同时,主客观分类方法涉及到模式识别中的很多基本问题,例如分类器设计问题,高维特征问题等等。因此,主客观分类技术的研究具有重要的实用价值和理论意义。目前,主流的主客观分类方法是基于机器学习的监督分类方法,该方法分为两个过程训练过程和分类过程。其中,在训练过程中,需要人工标注一定数目的主观性文章和客观性文章,然后使用这些标注样本和机器学习分类方法,如最大熵分类方法去训练出主客观分类器;在分类过程中,使用获得的分类器对未知样本进行分类获得主客观类别。但是,目前的方法一个重要的假设是训练数据是平衡的,即主观性文章和客观性文章数目相当。但是实际应用中,主客观文本的分布往往会非常不平衡。例如,观察豆瓣网上的大量的电影评论后,发现电影评论中客观的文本远远超过主观的文本,平均一篇文章包含10句左右的客观句和2句左右的主观句。由于传统的机器学习方法在样本不平衡的情况下,会将样本严重倾向地分为数量多的那个类别,从而严重影响分类的整体效果。
技术实现思路
本专利技术实施例提供了一种主观文本和客观文本分类方法及装置,能够有效解决主客观分类中的数据不平衡分布问题,改善分类效果。一种主观文本和客观文本分类方法,包括对不平衡训练样本进行多次欠采样,每次得到对应的一组欠采样训练集;对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练,从而为每一组所述欠采样训练集构建一个对应的基分类器;使用每个所述基分类器对待分样本进行分类,分别得到对应的分类结果;将所有所述的分类结果进行统计,得到统计结果;使用所述统计结果判断待分样本的主客观类别。一种主观文本和客观文本分类装置,包括欠采样单元,用于对不平衡训练样本进行多次欠采样,从而得到每次对应的一组欠采样训练集;训练单元,用于对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练,从而为每一组所述欠采样训练集构建一个对应的基分类器;分类单元,用于使用每个所述基分类器对待分样本进行分类,从而分别得到对应的分类结果;统计单元,用于将所有的分类结果进行统计,得到统计结果;判断单元,用于使用所述统计结果判断待分样本的主客观类别。从以上技术方案可以看出,本专利技术实施例具有以下优点本专利技术实施例提供了一种主观文本和客观文本分类方法及装置,该专利技术对不平衡训练样本进行多次欠采样,并对欠采样后的训练集进行训练,从而构建出多个基分类器,进而利用基分类器对待分样本进行分类,最后将所有分类结果进行统计得到最终的主客观分类结果。本专利技术实施例多次欠采样能够充分利用样本,训练欠采样训练集时使用不同的机器学习方法,构建出差异性大的基分类器。解决了样本不平衡给机器学习分类方法带来的不利影响,提高了分类效果,有效解决主观文本和客观文本分类中的数据不平衡分布问题。附图说明图1为本专利技术实施例提供的一种主观文本和客观文本分类方法的流程图;图2为本专利技术实施例提供的一种主观文本和客观文本分类装置的基本逻辑结构图;图3为本专利技术实施例提供的另一种主观文本和客观文本分类装置的结构示意图。 具体实施例方式下面将结合附图说明对本专利技术实施例进行详细描述。本专利技术实施例提供了一种主观文本和客观文本分类方法及装置,用于解决主客观分类中的数据不平衡分布问题,改善分类效果。该专利技术实施例将一定的主观和客观不平衡文本作为训练样本,然后对不平衡训练样本进行多次欠采样,并对欠采样训练集进行训练,从而构建多个基分类器,进而用于对待分样本进行分类,最后将所有分类结果进行统计从而得到最终的分类结果。本专利技术实施例能够充分利用不平衡训练样本,解决了样本不平衡给机器学习分类方法带来的不利影响。在构建基分类器时,随机使用三种不同的方法,使得构建出来的基分类器的差异性大, 有利于改善分类效果。本专利技术实施例的主观文本和客观文本分类方法的基本流程可参考图1,图1为本专利技术实施例提供的一种主观文本和客观文本分类方法的流程图,该方法主要包括以下步骤101、对不平衡训练样本多次欠采样,每次得到一组欠采样训练集。由于欠采样是从多数类样本中选取一定数目的样本,所以会丢失掉一些信息,因此多次欠采样能够达到充分利用多数类样本的效果,使分类结果更为准确。这其中,首先要对所选用的测试语料中的不平衡训练样本进行人工标注,分成客观句子一类和主观句子一类,比较不平衡训练样本中包含主观类句子的数量和客观类句子的数量的多少,将包含句子数量多的类别作为多数类样本,将包含句子数量少的类别作为少数类样本。然后计算多数类样本数量和少数类样本数量的比例,确定欠采样的次数。最后按照确定的欠采样次数,重复多次从多数类样本中抽取出部分多数类样本。需要指出的是,每一次从多数类样本中抽取出的部分多数类样本的数量与少数类样本的数量相同。需要特别说明的是,由于在实际中,在实行用不平衡训练样本来进行欠采样这一步骤时,所选用的语料里的多数类样本的数量与少数类样本的数量的比例不一定恰好是整数比,所以计算出的欠采样次数也不是整数,此时我们应该将计算出的欠采样次数取整数,取整后的次数应该是比原来计算出来的次数要大,同时是与原来计算出来的次数最为接近的整数。多次欠采样有利于提高分类效果。欠采样时,每一次均从多数类样本中抽取出与少数类样本数量相同的部分多数类样本,该部分多数类样本和少数类样本共同组成一个欠采样训练集,即每欠采样一次就得到一组欠采样训练集,由欠采样的次数决定欠采样训练集的组数。为了便于理解,下面以一具体的应用场景对上述实施例中描述的对不平衡训练样本多次欠采样方法进行详细的描述,具体的1、使用的训练样本包含4000个句子,其中,包含客观类句子3000个,包含主观类句子1000个。即多数类样本为客观类句子3000个,少数类样本为主观类句子1000个。计算得出的欠采样次数为3000/1000 = 3次。则进行欠采样时,每次均从多数类样本中抽取出1000个句子,即每次从客观类3000个句子中抽取出1000个句子,每一次均与主观类句子的1000句组成一个欠采样训练集。显然,欠采样完成后会得到3组欠采样训练集。2、使用的训练样本包含4000个句子,其中,包含客观类句子2500个,包含主观类句子1500个。即多数类样本为客观类句子2500个,少数类样本为主观类句子1500个。计算得出的欠采样次数为2500/1500 1.7次。则实际进行欠采样时,次数应该取2次。即在欠采样时,每次从多数类样本中抽取出1500个句子,即从客观类句子2500个中抽取出 150本文档来自技高网
...

【技术保护点】
1.一种主观文本和客观文本分类方法,其特征在于,包括:对不平衡训练样本进行多次欠采样,每次得到对应的一组欠采样训练集;对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练,从而为每一组所述欠采样训练集构建一个对应的基分类器;使用每个所述基分类器对待分样本进行分类,分别得到对应的分类结果;将所有所述的分类结果进行统计,得到统计结果;使用所述统计结果判断待分样本的主客观类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山孔芳周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1