一种分类模型优化方法、装置及存储设备、程序产品制造方法及图纸

技术编号:20364378 阅读:19 留言:0更新日期:2019-02-16 17:12
本申请实施例公开了一种分类模型优化方法及装置,用于对分类模型进行优化,该方法包括:获取分类数据的n个特征;将分类数据的第i个特征输入与分类数据的第i个特征对应的基础分类模型,获得分类数据的n个基础分类结果;根据预设规则由分类数据的n个基础分类结果确定分类数据的分类结果;将分类数据的分类结果确定为分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据;根据第一训练数据对基础分类模型进行更新。

【技术实现步骤摘要】
一种分类模型优化方法、装置及存储设备、程序产品
本申请涉及数据处理领域,具体涉及一种分类模型优化方法、装置及存储设备、程序产品。
技术介绍
在机器学习领域,通常需要根据大量具有分类标签的数据进行模型训练,以建立分类模型。但是,获取海量的数据,并将数据添加高准确性的分类标签的成本十分高昂。其原因在于,数据标注无法完全自动进行,需要进行人工标注,尤其对于专业性较强的数据,例如医疗数据、金融数据、网络攻击数据等,需要专业人员进行数据标签的标注。在一些场景中,为了降低成本,会利用少量带有分类标签的训练数据建立分类模型,但是一方面训练数据的数量较少,另一方面训练数据的分类标签也无法保证完全准确,因此,利用这些数据进行模型训练,会导致建立的分类模型不准确,因此如何对分类模型进行优化是亟待解决的技术问题。
技术实现思路
有鉴于此,本申请实施例提供一种分类模型优化方法、装置及存储设备、程序产品,以实现对分类模型进行优化。为解决上述问题,本申请实施例提供的技术方案如下:一种分类模型优化方法,所述方法包括:获取分类数据的n个特征,n为大于1的整数;所述分类数据为不存在分类标签的数据或者带有不准确分类标签的数据;将所述分类数据的第i个特征输入与所述分类数据的第i个特征对应的基础分类模型,获得所述分类数据的n个基础分类结果,其中,i的取值为1至n中的每一个整数;根据预设规则由所述分类数据的n个基础分类结果确定所述分类数据的分类结果;将所述分类数据的分类结果确定为所述分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据;根据所述第一训练数据对所述基础分类模型进行更新。在一些可能的实现方式中,在将分类数据的第i个特征输入与所述分类数据的第i个特征对应的基础分类模型之前,所述方法还包括:获取第二训练数据的n个特征,所述第二训练数据对应有分类标签,n为大于1的整数;根据所述第二训练数据的第i个特征以及所述第二训练数据的分类标签,对与所述第二训练数据的第i个特征对应的初始分类模型进行训练,生成n个基础分类模型,其中,i的取值为1至n中的每一个整数。在一些可能的实现方式中,所述将所述分类数据的分类结果确定为所述分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据,包括:如果所述分类数据的分类结果与所述分类数据的分类标签不相符,根据所述分类数据的分类结果对所述分类数据的分类标签进行更新,将进行了分类标签更新的分类数据确定为第一训练数据;如果所述分类数据不存在分类标签,将所述分类数据的分类结果添加为所述分类数据的分类标签,将添加了分类标签的分类数据确定为所述第一训练数据。在一些可能的实现方式中,所述预设规则包括:当所述n个基础分类结果一致时,将所述n个基础分类结果作为所述分类数据的分类结果;当所述n个基础分类结果不一致时,获取n个基础分类结果中数量最多的基础分类结果,如果该数量最多的基础分类结果的数量达到数量阈值且该数量最多的基础分类结果对应的准确性概率均达到概率阈值,将该数量最多的基础分类结果作为所述分类数据的分类结果;当所述n个基础分类结果不一致时,获取n个基础分类结果中数量最多的基础分类结果,如果该数量最多的基础分类结果的数量未达到所述数量阈值或者该数量最多的基础分类结果对应的准确性概率未均达到所述概率阈值,则获取专家系统确定的所述分类数据的分类结果。在一些可能的实现方式中,所述根据所述第一训练数据对所述基础分类模型进行更新,包括:如果所述第一训练数据的分类标签是根据所述专家系统确定的所述分类数据的分类结果获得的,则根据所述第一训练数据对全部所述基础分类模型进行更新;如果所述第一训练数据的分类标签是根据所述n个基础分类结果中数量最多的基础分类结果获得的,则根据所述第一训练数据对待更新基础分类模型进行更新,所述待更新基础分类模型为未产生所述n个基础分类结果中数量最多的基础分类结果的基础分类模型。一种分类模型优化装置,所述装置包括:第一获取单元,用于获取分类数据的n个特征,n为大于1的整数;所述分类数据为不存在分类标签的数据或者带有不准确分类标签的数据;第二获取单元,用于将所述分类数据的第i个特征输入与所述分类数据的第i个特征对应的基础分类模型,获得所述分类数据的n个基础分类结果,其中,i的取值为1至n中的每一个整数;第一确定单元,用于根据预设规则由所述分类数据的n个基础分类结果确定所述分类数据的分类结果;第二确定单元,用于将所述分类数据的分类结果确定为所述分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据;更新单元,用于根据所述第一训练数据对所述基础分类模型进行更新。在一些可能的实现方式中,所述装置还包括:第三获取单元,用于在所述第二获取单元获得所述分类数据的n个基础分类结果之前,获取第二训练数据的n个特征,所述第二训练数据对应有分类标签,n为大于1的整数;生成单元,用于根据所述第二训练数据的第i个特征以及所述第二训练数据的分类标签,对与所述第二训练数据的第i个特征对应的初始分类模型进行训练,生成n个基础分类模型,其中,i的取值为1至n中的每一个整数。在一些可能的实现方式中,所述第二确定单元具体包括:更新子单元,用于如果所述分类数据的分类结果与所述分类数据的分类标签不相符,根据所述分类数据的分类结果对所述分类数据的分类标签进行更新,将进行了分类标签更新的分类数据确定为第一训练数据;添加子单元,用于如果所述分类数据不存在分类标签,将所述分类数据的分类结果添加为所述分类数据的分类标签,将添加了分类标签的分类数据确定为所述第一训练数据。在一些可能的实现方式中,所述预设规则包括:当所述n个基础分类结果一致时,将所述n个基础分类结果作为所述分类数据的分类结果;当所述n个基础分类结果不一致时,获取n个基础分类结果中数量最多的基础分类结果,如果该数量最多的基础分类结果的数量达到数量阈值且该数量最多的基础分类结果对应的准确性概率均达到概率阈值,将该数量最多的基础分类结果作为所述分类数据的分类结果;当所述n个基础分类结果不一致时,获取n个基础分类结果中数量最多的基础分类结果,如果该数量最多的基础分类结果的数量未达到所述数量阈值或者该数量最多的基础分类结果对应的准确性概率未均达到所述概率阈值,则获取专家系统确定的所述分类数据的分类结果。在一些可能的实现方式中,所述更新单元具体包括:第一更新子单元,用于如果所述第一训练数据的分类标签是根据所述专家系统确定的所述分类数据的分类结果获得的,则根据所述第一训练数据对全部所述基础分类模型进行更新;第二更新子单元,用于如果所述第一训练数据的分类标签是根据所述n个基础分类结果中数量最多的基础分类结果获得的,则根据所述第一训练数据对待更新基础分类模型进行更新,所述待更新基础分类模型为未产生所述n个基础分类结果中数量最多的基础分类结果的基础分类模型。一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的分类模型优化方法。一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的分类模型优化方法。由此可见,本申请实施例具有如下有益效果:本申请实施例将分类数据的每个特征分别输入对应的本文档来自技高网...

【技术保护点】
1.一种分类模型优化方法,其特征在于,所述方法包括:获取分类数据的n个特征,n为大于1的整数;所述分类数据为不存在分类标签的数据或者带有不准确分类标签的数据;将所述分类数据的第i个特征输入与所述分类数据的第i个特征对应的基础分类模型,获得所述分类数据的n个基础分类结果,其中,i的取值为1至n中的每一个整数;根据预设规则由所述分类数据的n个基础分类结果确定所述分类数据的分类结果;将所述分类数据的分类结果确定为所述分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据;根据所述第一训练数据对所述基础分类模型进行更新。

【技术特征摘要】
1.一种分类模型优化方法,其特征在于,所述方法包括:获取分类数据的n个特征,n为大于1的整数;所述分类数据为不存在分类标签的数据或者带有不准确分类标签的数据;将所述分类数据的第i个特征输入与所述分类数据的第i个特征对应的基础分类模型,获得所述分类数据的n个基础分类结果,其中,i的取值为1至n中的每一个整数;根据预设规则由所述分类数据的n个基础分类结果确定所述分类数据的分类结果;将所述分类数据的分类结果确定为所述分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据;根据所述第一训练数据对所述基础分类模型进行更新。2.根据权利要求1所述的方法,其特征在于,在将分类数据的第i个特征输入与所述分类数据的第i个特征对应的基础分类模型之前,所述方法还包括:获取第二训练数据的n个特征,所述第二训练数据对应有分类标签,n为大于1的整数;根据所述第二训练数据的第i个特征以及所述第二训练数据的分类标签,对与所述第二训练数据的第i个特征对应的初始分类模型进行训练,生成n个基础分类模型,其中,i的取值为1至n中的每一个整数。3.根据权利要求1所述的方法,其特征在于,所述将所述分类数据的分类结果确定为所述分类数据的分类标签,将重新确定了分类标签的分类数据确定为第一训练数据,包括:如果所述分类数据的分类结果与所述分类数据的分类标签不相符,根据所述分类数据的分类结果对所述分类数据的分类标签进行更新,将进行了分类标签更新的分类数据确定为第一训练数据;如果所述分类数据不存在分类标签,将所述分类数据的分类结果添加为所述分类数据的分类标签,将添加了分类标签的分类数据确定为所述第一训练数据。4.根据权利要求1-3任一项所述的方法,其特征在于,所述预设规则包括:当所述n个基础分类结果一致时,将所述n个基础分类结果作为所述分类数据的分类结果;当所述n个基础分类结果不一致时,获取n个基础分类结果中数量最多的基础分类结果,如果该数量最多的基础分类结果的数量达到数量阈值且该数量最多的基础分类结果对应的准确性概率均达到概率阈值,将该数量最多的基础分类结果作为所述分类数据的分类结果;当所述n个基础分类结果不一致时,获取n个基础分类结果中数量最多的基础分类结果,如果该数量最多的基础分类结果的数量未达到所述数量阈值或者该数量最多的基础分类结果对应的准确性概率未均达到所述概率阈值,则获取专家系统确定的所述分类数据的分类结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一训练数据对所述基础分类模型进行更新,包...

【专利技术属性】
技术研发人员:申勇
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1