当前位置: 首页 > 专利查询>南京大学专利>正文

一种快速提升文本分类性能的机器学习方法和装置制造方法及图纸

技术编号:22166938 阅读:39 留言:0更新日期:2019-09-21 10:35
本发明专利技术公开了一种快速提升文本分类性能的机器学习方法和装置,主要用于实现文本分类性能的快速提升。本发明专利技术主要的技术方案为:获取与目标任务相关的一组模型;通过复用已有模型选择出需要查询的本文样本,过滤掉不必要的查询,帮助获得更准确的主动学习模型,节省大量的查询代价;基于有标记的文本样本对已有模型的重要程度进行更新,用于更好地过滤不必要的查询。本发明专利技术具有易实现、高效的特点,可以基于少量的查询代价,实现模型的快速性能提升。

A Machine Learning Method and Device for Quickly Improving the Performance of Text Classification

【技术实现步骤摘要】
一种快速提升文本分类性能的机器学习方法和装置
本专利技术涉及一种快速提升文本分类性能的机器学习方法和装置,文本分类的机器学习

技术介绍
随着信息技术的发展,互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。然而,仍然有许多不足之处。首先,要训练一个强大的机器学习模型,需要大量的训练样本;而收集大量有标记的数据,在许多实际任务中很困难。第二,一旦模型被训练,如果实际任务的环境发生变化,那么该模型很难表现得很好,直接丢弃造成资源浪费。模型复用旨在减少目标任务训练过程所需要的学习资源,近年来引起广泛的关注。当目标任务有标记样本有限时,已有的模型复用方法能够获得显著的性能提升。然而,之前的模型复用方法获得有标记样本的方式是被动的,这导致机器学习模型的性能提升速度受限。这不能适应很多文本实际任务的需求——实际任务通常希望模型的性能能够较快地得到提升。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提出了一种快速提升文本分类性能的机器学习方法和装置,缓解机器学习模型的训练性能提升过慢问题,有效降低了训练过程中的资源开销,提高了对已有模型与有标记样本的利用效率。技术方案:一种快速提升文本分类性能的机器学习方法,具体包括:1)获取目标文本分类数据集,所述目标文本数据集部分文本样本具有标记;2)获取与目标文本分类任务相关的一组模型,这些模型的性能有限;3)通过复用已有模型选择需要查询的文本样本,帮助获得更准确的主动学习模型,节省大量的查询代价;4)基于分类误差最小化的原则对已有模型的重要程度进行更新,进而更好地过滤不必要的查询;5)将最终的模型作为目标文本数据集上的机器学习模型。可选的,所述获取与目标文本相关的一组已有模型,这些模型在已有相关数据集上的大量有标记文本样本上训练得到。由于数据分布存在差异,这些模型的性能往往有限。可选的,所述利用已有模型过滤不必要查询的步骤为:1)通过主动学习选择出待查询的文本样本,这里查询指通过领域专家获得该本文样本的标记;2)利用已有模型计算出该文本样本的预测自信度:3)根据预测自信度判断是否需要查询。具体来说,如果预测自信度高于指定阈值,则通过已有模型给出标记;否则,则通过领域专家得到标记。可选的,所述基于分类误差最小化的原则对已有模型的重要程度进行更新,也就是,提高对性能提升做出较大贡献的已有模型的权值,与此同时,降低对性能提升缺乏贡献的已有模型的权值。可选的,所述已有的模型复用方法包括但不限于:采用AdaptiveSVM实现SVM模型的复用,即通过将已有模型的权重作为正则项,指导目标任务的训练文本样本完成建模;采用STRUT和SER实现RandomForest模型的复用,即通过利用决策树的结构信息和文本数据分布信息,指导目标任务的训练文本样本完成建模;采用深度学习Fine-tune技术,实现深度学习模型的复用,即冻结已有模型的部分卷积层,使用线性Logistic回归等技术训练剩下的卷积层和全连接层实现模型复用。一种实现文本分类性能快速提升的机器学习装置,所述装置包括:1)获取单元,用于获取目标文本数据集,所述目标文本数据集中的部分样本数据具有标记;2)第一选择单元,用于选择与目标文本数据集相关的一组已有模型;3)第一确定单元,用于确定已有模型的性能符合要求;4)第二选择单元,用于选择初始待查询的文本样本集合;5)赋值单元,通过复用已有模型选择出需要查询的文本样本,过滤掉不必要的查询,节省查询代价;6)第二确定单元,用于对已有模型的重要程度进行更新,更好地过滤不必要的查询;7)第三确定单元,根据机器学习算法在目标文本数据集上训练得到最终的机器学习模型。借由上述技术方案,本专利技术提供了一种实现快速提升文本分类性能的机器学习方法及装置,通过复用已有模型对目标文本数据集,选择出亟待查询的本文样本,过滤掉大量不必要的查询,有效提高了主动学习的效率,可以基于较少的查询代价,实现目标任务性能的较快提升。附图说明图1是主动学习与模型复用结合方法的流程图;图2是过滤待查询文本样本的流程图;图3是更新已有模型权重的流程图;图4是实现快速提升文本分类性能的机器学习装置的组成框图;图5是本专利技术方法流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术。这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术实施例提供了一种快速提升文本分类性能的机器学习方法。本方法的具体步骤如图5所示,主要包括:101、获取目标文本分类数据集。其中,所述目标文本数据集中的部分样本数据具有标记。在本专利技术实施例中,所述目标文本数据集可以为情感分析或垃圾邮件等各种文本数据集。其中,在该数据集中包含的多个样本数据中存在有标记数据及未标记数据,在本专利技术实施例中对于有标记数据为已知分类结果的数据,未标记数据为未知分类结果的数据。在本专利技术实施例中,对于获取目标文本数据集的过程可以根据现有的获取方式进行,例如设置专用于目标文本数据的接口,进行目标数据集的获取。102、获取与目标文本分类任务相关的一组模型。这里,与目标文本分类任务相关的一组模型也称为已有模型,这些已有模型是由相关任务的大量有标记样本训练而成。比如,足球主题的文本分类任务通常可以借鉴篮球、体育、娱乐类的本文主题模型来提供已有模型;边远地区的银行交易数据分类可以利用发达地区的已有模型来提供帮助。由于数据分布存在差异,这些模型直接运用于目标文本任务上往往性能不佳。图1是主动学习与模型复用结合方法的流程图。本专利技术方法挑选出合适的未标记文本样本交给领域专家提供标记,也就是查询。此处挑选的初始策略可以选用任何一种已知的主动学习策略。在此基础上,模型复用会在过程中结合主动学习的结果共同来挑选出合适的未标记文本样本。详情请见下述103步骤的描述和图2的描述。103、复用已有模型过滤不太必要的查询,节省大量的查询代价。图2所示为过滤不必要查询文本样本的过程。本专利技术首先基于现有主动学习策略选择出候选的未标记文本样本。在此基础上,通过已有模型对候选的未标记文本样本计算出预测自信度。公式如下所示θ(x(t))=(1+α(x(t)))-1(4)其中,x(t)代表候选的第t个未标记文本样本,代表该文本样本在已有模型上得到预测标记,ηj表示第j个已有模型的权重,表示当前已获得的有标记样本的数目,表示主动学习模型对样本x(t)的预测,表示第j个已有模型的后验概率。命题z如正确,那么[[z]]=1。表示已有模型分类正确的概率。通过上式推导可以得到,0≤α(x(t))≤1,它表示已有模型可以正确分类文本样本x(t)的预测自信度本文档来自技高网...

【技术保护点】
1.一种快速提升文本分类性能的机器学习方法,其特征在于,具体包括:1)获取目标文本分类数据集,所述目标文本数据集部分文本样本具有标记;2)获取与目标文本分类任务相关的一组模型,这些模型性能有限;3)通过复用已有模型选择需要查询的文本样本,帮助获得更准确的主动学习模型,节省大量的查询代价;4)基于分类误差最小化的原则对已有模型的重要程度进行更新,进而更好地过滤不必要的查询;5)将最终的模型作为目标文本数据集上的机器学习模型。

【技术特征摘要】
1.一种快速提升文本分类性能的机器学习方法,其特征在于,具体包括:1)获取目标文本分类数据集,所述目标文本数据集部分文本样本具有标记;2)获取与目标文本分类任务相关的一组模型,这些模型性能有限;3)通过复用已有模型选择需要查询的文本样本,帮助获得更准确的主动学习模型,节省大量的查询代价;4)基于分类误差最小化的原则对已有模型的重要程度进行更新,进而更好地过滤不必要的查询;5)将最终的模型作为目标文本数据集上的机器学习模型。2.如权利要求1所述的快速提升文本分类性能的机器学习方法,其特征在于,所述获取目标数据集,包括对目标文本数据集的预处理。3.如权利要求2所述的快速提升文本分类性能的机器学习方法,其特征在于,所述通过复用已有模型构造出查询文本样本,已有的模型复用方法包括:采用AdaptiveSVM实现SVM模型的复用,即通过将已有模型的权重作为正则项,指导目标任务的训练文本样本完成建模;采用STRUT和SER实现RandomForest...

【专利技术属性】
技术研发人员:李宇峰石锋
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1