【技术实现步骤摘要】
基于主动学习策略的文本分类方法及系统
本专利技术涉及文本分类
,并特别涉及一种基于主动学习策略的文本分类方法及系统。
技术介绍
非结构化数据的结构化抽取工作一直是人工智能领域一个非常重要的课题。在如今这个数据大爆炸的时代,人们需要收集分析的数据量急剧增加,从大量数据中手动提取有用的知识变得非常困难和不可能,因此需要利用自然语言处理(NLP)和数据挖掘(DataMining)技术来帮助人工挖掘和从大规模数据中发现有用的知识。在真实的对话分析场景中,每天积累的非结构化文本类数据量巨大,但极少被人工进行标注。为了让机器快速进行学习,对数据进行标注是必不可少的一步。然而数据标注需要昂贵的成本,面对海量数据,如何经济又准确地进行标注是一个的棘手问题。针对这个问题,采用主动学习被认为是一个非常有效的解决方案。通过使用已有标注数据,让机器学习到的模型与标注专家进行高效的交互,能够有效降低模型学习所需要的标注数据量。现阶段广泛使用的主动学习策略有以下几种:(1)基于IID实例信息的主动学习策略:这类策略假设未标记集合中的实例是 ...
【技术保护点】
1.一种基于主动学习策略的文本分类方法,其特征在于,包括:/n步骤1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;/n步骤2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;/n步骤3、重复执行该步骤2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。/n
【技术特征摘要】 【专利技术属性】
1.一种基于主动学习策略的文本分类方法,其特征在于,包括:
步骤1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;
步骤2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;
步骤3、重复执行该步骤2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
2.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该步骤1包括:
步骤11、对该第二文本数据进行聚类,得到多个类簇,选择每个类簇中部分数据作为初始训练集进行标注。
3.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该第一文本数据中负例样本数量与正例样本数量的比值大于1。
4.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该步骤2包括:
步骤21、使用该中间分类模型对该第二文本数据进行分类预测,获取相应类别概率,并根据类该别概率得到该第二文本数据中每个样本的margin:
步骤22、从该第二文本数据中选出前G个margin最小的样本,作为第三文本数据进行类别标记,其中G为正整数;
步骤23、当前该第一文本数据中负例样本数量与正例样本数量的比值:和该第三文本数据中负例样本数量与正例样本数量的比值:
若ratio2>ratio1+thres,则舍弃该第三文本数据或只保留该第三文本数据中的正例,并从当前该第一文本数据中重采样一批数据加入当前训练集;否则将该第三文本数据加入当前训练集。
5.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该步骤2中训练基于深度学习的分类模型时权重的更新过程具体包括:
步骤24、根据当前该训练集负例样本数量与正例样本数量的比值:
将正例的权重设置为ratio,负例的权重设置为1-ratio:
步骤25、根据训练数据的来源,将当前训练集分为初始训练数据和扩增训练数据,并将该初始训练数据的权重设置为该扩增训练数据的权重设置为ratio:
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数。
技术研发人员:李海玉,刘兴武,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。