一种快速提升文本分类性能的机器学习方法和装置制造方法及图纸

技术编号：22166938 阅读：39 留言：0更新日期：2019-09-21 10:35

本发明专利技术公开了一种快速提升文本分类性能的机器学习方法和装置，主要用于实现文本分类性能的快速提升。本发明专利技术主要的技术方案为：获取与目标任务相关的一组模型；通过复用已有模型选择出需要查询的本文样本，过滤掉不必要的查询，帮助获得更准确的主动学习模型，节省大量的查询代价；基于有标记的文本样本对已有模型的重要程度进行更新，用于更好地过滤不必要的查询。本发明专利技术具有易实现、高效的特点，可以基于少量的查询代价，实现模型的快速性能提升。

A Machine Learning Method and Device for Quickly Improving the Performance of Text Classification

全部详细技术资料下载

【技术实现步骤摘要】
一种快速提升文本分类性能的机器学习方法和装置
本专利技术涉及一种快速提升文本分类性能的机器学习方法和装置，文本分类的机器学习

技术介绍
随着信息技术的发展，互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息，基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中，文本分类技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破，成为相关领域研究和应用的经典范例。然而，仍然有许多不足之处。首先，要训练一个强大的机器学习模型，需要大量的训练样本；而收集大量有标记的数据，在许多实际任务中很困难。第二，一旦模型被训练，如果实际任务的环境发生变化，那么该模型很难表现得很好，直接丢弃造成资源浪费。模型复用旨在减少目标任务训练过程所需要的学习资源，近年来引起广泛的关注。当目标任务有标记样本有限时，已有的模型复用方法能够获得显著的性能提升。然而，之前的模型复用方法获得有标记样本的方式是被动的，这导致机器学习模型的性能提升速度受限。这不能适应很多文本实际任务的需求——实际任务通常希望模型的性能能够较快地得到提升。
技术实现思路
专利技术目的：针对现有技术中存在的问题与不足，本专利技术提出了一种快速提升文本分类性能的机器学习方法和装置，缓解机器学习模型的训练性能提升过慢问题，...

【技术保护点】
1.一种快速提升文本分类性能的机器学习方法，其特征在于，具体包括：1)获取目标文本分类数据集，所述目标文本数据集部分文本样本具有标记；2)获取与目标文本分类任务相关的一组模型，这些模型性能有限；3)通过复用已有模型选择需要查询的文本样本，帮助获得更准确的主动学习模型，节省大量的查询代价；4)基于分类误差最小化的原则对已有模型的重要程度进行更新，进而更好地过滤不必要的查询；5)将最终的模型作为目标文本数据集上的机器学习模型。

【技术特征摘要】
1.一种快速提升文本分类性能的机器学习方法，其特征在于，具体包括：1)获取目标文本分类数据集，所述目标文本数据集部分文本样本具有标记；2)获取与目标文本分类任务相关的一组模型，这些模型性能有限；3)通过复用已有模型选择需要查询的文本样本，帮助获得更准确的主动学习模型，节省大量的查询代价；4)基于分类误差最小化的原则对已有模型的重要程度进行更新，进而更好地过滤不必要的查询；5)将最终的模型作为目标文本数据集上的机器学习模型。2.如权利要求1所述的快速提升文本分类性能的机器学习方法，其特征在于，所述获取目标数据集，包括对目标文本数据集的预处理。3.如权利要求2所述的快速提升文本分类性能的机器学习方法，其特征在于，所述通过复用已有模型构造出查询文本样本，已有的模型复用方法包括：采用AdaptiveSVM实现SVM模型的复用，即通过将已有模型的权重作为正则项，指导目标任务的训练文本样本完成建模；采用STRUT和SER实现RandomForest...

【专利技术属性】
技术研发人员：李宇峰，石锋，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人