当前位置: 首页 > 专利查询>苏州大学专利>正文

一种具有时间适应性的分类方法及装置制造方法及图纸

技术编号:14013444 阅读:47 留言:0更新日期:2016-11-17 15:07
本申请公开一种具有时间适应性的分类方法和装置,所述方法通过将已标注的历史样本集作为训练样本训练一基础分类器,并基于基础分类器采用迭代方式对现阶段的预定未标注样本集进行标注,在此基础上,结合利用所述历史样本集及现阶段已标注的样本,来训练得到一目标分类器,后续可利用该目标分类器对待测样本进行分类。由于在训练目标分类器时,向历史样本集中添加了现阶段的样本,从而使得在利用已标注的历史样本训练分类器时还结合考虑了现阶段样本的特征,进而使得最终训练得出的分类器能够适应现阶段样本的分类任务,具有较高的时间适应性,且由于充分利用已标注的历史样本来预测现阶段样本的类别标签,从而大大减少了现阶段样本的标注工作。

【技术实现步骤摘要】

本专利技术属于自然语言处理及模式识别
,尤其涉及一种具有时间适应性的分类方法及装置
技术介绍
随着互联网的快速发展,网络交易日渐普及,随之而来的是网络上的商品评论数量越来越多,形成海量的评论文本信息。这些海量的文本信息一般带有明显的情感色彩,具有很高的价值,对其进行情感分析及研究,能够对企业、政府、个人等进行决策提供有效的帮助。情感分类是情感分析中一项重要的研究任务,其主要是根据作者/评论者所表达的观点和态度实现对文本进行分类。然而,由于语言具有动态发展的特性,其在不同时间段表达情感的方式往往是有所不同的,以商品的评论文本为例,在最新的评论文本中,一些旧词的使用会越来越少,甚至可能会逐渐消失,与此同时,可能会出现一些新的表达情感的词汇,因此,不同时间段的评论文本在词分布方面的差距往往较大,此种情况会导致情感分类的时间适应性较差,即在利用以前已标注好的文本作为训练样本所得到的分类器对现阶段所产生的文本进行情感分类时,其分类的准确率会降低。基于这一考虑,目前的大部分情感分类研究几乎都假设训练集和测试集均来自同一时间段,但此种方式由于需对现阶段样本进行诸如专家标注等标注任务,无疑会大大地增加现阶段样本标注的工作量,基于此,如何在确保较高准确率的前提下,充分利用以前已有的已标注样本来对现阶段的待测试文本进行情感分类,使得情感分类具有较高的时间适应性成为本领域的研究热点。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种具有时间适应性的分类方法及装置,旨在解决现有的情感分类方式存在的问题,使得情感分类具有较高的时间适应性。为此,本专利技术公开如下技术方案:一种具有时间适应性的分类方法,包括:将已标注的历史样本集作为训练样本,训练得到基础分类器;利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本;将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签;基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。上述方法,优选的,所述将已标注的历史样本集作为训练样本,训练得到基础分类器,包括:将所述历史样本集划分为两个属性集:第一属性集及第二属性集;其中,所述第一属性集及所述第二属性集的交集为空,合集为所述历史样本集;基于所述第一属性集训练得到第一基础分类器;基于所述第二属性集训练得到第二基础分类器。上述方法,优选的,所述利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本,包括:利用所述第一基础分类器对所述部分样本中的第一部分样本进行分类,得到具有类别标签的第一部分样本;利用所述第二基础分类器对所述部分样本中的第二部分样本进行分类,得到具有类别标签的第二部分样本。上述方法,优选的,将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,包括:将所述具有类别标签的第一部分样本中置信度高于预定阈值的样本添加至所述第一属性集,得到新的第一属性集;将所述具有类别标签的第二部分样本中置信度高于预定阈值的样本添加至所述第二属性集,得到新的第二属性集;将所述第一属性集及所述第二属性集作为新的训练样本,并迭代执行所述训练、所述分类及训练样本的更新过程。上述方法,优选的,还包括:基于所述待测样本的分类类别及实际类别,验证所述目标分类器的分类准确性。一种具有时间适应性的分类装置,包括:基础分类器训练模块,用于将已标注的历史样本集作为训练样本,训练得到基础分类器;标签标注模块,用于利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本;迭代模块,用于将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签;目标分类器训练模块,用于基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。上述装置,优选的,所述基础分类器训练模块包括:划分单元,用于将所述历史样本集划分为两个属性集:第一属性集及第二属性集;其中,所述两个属性集的交集为空,合集为所述历史样本集;第一训练单元,用于基于所述第一属性集训练得到第一基础分类器;第二训练单元,用于基于所述第二属性集训练得到第二基础分类器。8、根据权利要求7所述的装置,其特征在于,所述标签标注模块包括:第一标注单元,用于利用所述第一基础分类器对所述部分样本中的第一部分样本进行分类,得到具有类别标签的第一部分样本;第二标注单元,用于利用所述第二基础分类器对所述部分样本中的第二部分样本进行分类,得到具有类别标签的第二部分样本。上述装置,优选的,所述迭代模块包括:第一添加单元,用于将所述具有类别标签的第一部分样本中置信度高于预定阈值的样本添加至所述第一属性集,得到新的第一属性集;第二添加单元,用于所述具有类别标签的第二部分样本中置信度高于预定阈值的样本添加至所述第二属性集,得到新的第二属性集;迭代单元,用于将所述第一属性集及所述第二属性集作为新的训练样本,并迭代执行所述训练、所述分类及训练样本的更新过程。上述装置,优选的,还包括:准确性验证模块,用于基于所述待测样本的分类类别及实际类别,验证所述目标分类器的分类准确性。由以上方案可知,本申请公开的具有时间适应性的分类方法,通过将已标注的历史样本集作为训练样本训练得到基础分类器,并基于基础分类器采用迭代方式对现阶段的预定未标注样本集中的样本进行标注,在此基础上,结合利用所述历史样本集以及现阶段已标注的样本,来训练得到一目标分类器,从而后续可利用该目标分类器对待测样本进行分类。由于在训练目标分类器时,向历史样本集中添加了现阶段的样本,从而使得在利用已标注的历史样本训练分类器时还结合考虑了现阶段样本的特征,进而使得最终训练得出的分类器能够适应现阶段样本的分类任务,具有较高的时间适应性,且由于充分利用已标注的历史样本来预测现阶段样本的类别标签,从而大大减少了现阶段样本的标注工作。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本专利技术实施例一提供的具有时间适应性的分类方法的流程图;图2是本专利技术实施例二提供的具有时间适应性的分类方法的流程图;图3-图4是本专利技术实施例三提供的具有时间适应性的分类装置的结构示意图。具体实施方式为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:半监督学习:Semi-Supervised Learning,SSL:是模式识别和机器学习领域研究的本文档来自技高网...
一种具有时间适应性的分类方法及装置

【技术保护点】
一种具有时间适应性的分类方法,其特征在于,包括:将已标注的历史样本集作为训练样本,训练得到基础分类器;利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本;将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签;基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。

【技术特征摘要】
1.一种具有时间适应性的分类方法,其特征在于,包括:将已标注的历史样本集作为训练样本,训练得到基础分类器;利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本;将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签;基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。2.根据权利要求1所述的方法,其特征在于,所述将已标注的历史样本集作为训练样本,训练得到基础分类器,包括:将所述历史样本集划分为两个属性集:第一属性集及第二属性集;其中,所述第一属性集及所述第二属性集的交集为空,合集为所述历史样本集;基于所述第一属性集训练得到第一基础分类器;基于所述第二属性集训练得到第二基础分类器。3.根据权利要求2所述的方法,其特征在于,所述利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本,包括:利用所述第一基础分类器对所述部分样本中的第一部分样本进行分类,得到具有类别标签的第一部分样本;利用所述第二基础分类器对所述部分样本中的第二部分样本进行分类,得到具有类别标签的第二部分样本。4.根据权利要求3所述的方法,其特征在于,将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,包括:将所述具有类别标签的第一部分样本中置信度高于预定阈值的样本添加至所述第一属性集,得到新的第一属性集;将所述具有类别标签的第二部分样本中置信度高于预定阈值的样本添加至所述第二属性集,得到新的第二属性集;将所述第一属性集及所述第二属性集作为新的训练样本,并迭代执行所述训练、所述分类及训练样本的更新过程。5.根据权利要求1-4任意一项所述的方法,其特征在于,还包括:基于所述待测样本的分类类别及实际类别,验证所述目标...

【专利技术属性】
技术研发人员:李寿山张栋周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1