分类模型的训练和使用方法、装置、设备和介质制造方法及图纸

技术编号:24331872 阅读:47 留言:0更新日期:2020-05-29 20:00
本申请公开了一种分类模型的训练和使用方法、装置、设备和介质,涉及人工智能技术领域。该训练方法包括:利用训练样本集,采用集成学习算法对分类模型进行训练,以获得至少一个分类器集合,所述分类器集合中包括至少两个基分类器;采用测试样本集,对所述分类器集合进行测试,以确定各基分类器的分类性能,并根据所述分类性能确定各基分类器的分类权重;其中,所述分类权重用于在使用所述分类器集合进行样本分类时,确定各所述基分类器分类结果的权重。本申请实施例能够保证集成学习中基分类器的多样性,并使分类器对少数类和多数类具有共同的分类性能,以使分类模型适用于样本不均衡的情况。

Training and using methods, devices, equipment and media of classification model

【技术实现步骤摘要】
分类模型的训练和使用方法、装置、设备和介质
本申请涉及计算机
,尤其涉及一种人工智能技术。
技术介绍
近年来,大数据与人工智能技术迅猛发展,语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。分类问题是机器学习和数据挖掘领域中最为典型的问题。然而,现实应用场景中,分类数据集,大都存在着明显的类别分布不平衡问题,即同一数据样本中,某些类别样本数量远远多于其他几个或者某个类别的情况。这种数据集被称作类别不平衡数据集,不平衡数据集很可能导致训练得到的模型性能差,使其无法达到理想的应用效果和应用性能。
技术实现思路
本申请实施例提供的一种分类模型的训练和使用方法、装置、设备和介质,以实现提高分类模型对不均衡样本的适用性。本申请实施例公开了一种分类模型的训练方法,该方法包括:利用训练样本集,采用集成学习算法对分类模型进行训练,以获得至少一个分类器集合,所述分类器集合中包括至少两个基分类器;采用测试样本集,对所述分类器集合进行测试,以确定各基分类器的分类性能,并根据所述分类性能确定各基分类器的分类权重;其中,所述分类权重用于在使用所述分类器集合进行样本分类时,确定各所述基分类器分类结果的权重。上述实施例具有如下优点或有益效果:通过训练得到至少一个分类器集合,并根据其中各基分类器的分类性能确定各基分类器的分类权重,用于在分类时结合权重确定最终类别,从而克服了分类模型对不平衡数据的处理性能差的问题,保证了集成学习中基分类器的多样性,并使分类器对少数类和多数类具有共同的分类性能,以使分类模型适用于样本不均衡的情况。进一步地,利用训练样本集,采用集成学习算法对分类模型进行训练,以获得至少一个分类器集合包括:利用训练样本集,采用多目标遗传规划算法对分类模型进行训练,以获得至少一个分类器集合;其中,每个分类器集合的多个训练目标中至少包括:被模型分类错误的正类样本最少;被模型分类错误的负类样本最少。据此,上述实施例具有如下优点或有益效果:通过设置每个分类器集合中的多个训练目标,从而保证分类器对少数类数据和多数类数据具有共同的分类性能,避免因对少数类数据和多数类数据的分类性能不同而影响分类模型对整体数据的分类准确性。进一步地,所述分类模型中的分类器集合的数量为多个,分别对应不同的类别。据此,上述实施例具有如下优点或有益效果:通过设置多个分类器集合,并分别对应多个不同的类别,从而实现对多个分类的分类模型进行训练,从而提高多分类模型的性能。进一步地,所述基分类器的分类性能包括下述至少一个:精确率、召回率、精确率和召回率的几何均值、以及精确率和召回率的调和平均值。据此,上述实施例具有如下优点或有益效果:通过将上述指标作为分类性能对基分类器进行评价并确定其权重值,从而使其权重值能够充分反映基分类器对训练样本分类的性能和适用度。进一步地,采用测试样本集,对所述分类器集合进行测试,以确定各基分类器的分类性能,并根据所述分类性能确定各基分类器的分类权重包括:采用测试样本集,对所述分类器集合进行测试,统计每个基分类器将测试样本进行错误分类的正样本数量和错误分类的负样本数量;从所有基分类器中确定最大错误分类正样本数量和最大错误分类负样本数量;根据每个基分类器的错误分类正样本数量和错误分类负样本数量,与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系,确定所述基分类器的分类权重。据此,上述实施例具有如下优点或有益效果:通过错误分类的正样本数量和错误分类的负样本数量,以及最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系,确定所述基分类器的分类权重,从而使分类权重能够更全面地反映基分类器分别对正样本和负样本的分类性能。进一步地,根据每个基分类器的错误分类正样本数量和错误分类负样本数量,与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系,确定所述基分类器的分类权重包括:按照如下公式确定每个所述基分类器的分类权重wj:其中,为错误分类正样本数量,为错误分类负样本数量,为最大错误分类正样本数量,为最大错误分类负样本数量。据此,上述实施例具有如下优点或有益效果:通过上述公式能够基于基分类器对训练样本分类的错误分类正样本数量和错误分类负样本数量,与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系,确定基分类器的分类权重,从而使分类权重能够更全面地反映基分类器分别对正样本和负样本的分类性能。。进一步地,确定所述基分类器的分类权重之后,还包括:如果所述分类器集合的数量为多个,则针对每个分类器集合中各基分类器的分类权重,确定该分类器集合所对应类别的权重,作为所述分类器集合的类别权重。据此,上述实施例具有如下优点或有益效果:通过分类器集合中各基分类器的分类权重,确定分类器集合的类别权重,从而使类别权重综合性地反映分类器集合的整体分类性能,并使分类器集合结合其类别权重进行分类时,具有更广泛的适用性。进一步地,针对每个分类器集合中各基分类器的分类权重,确定该分类器集合所对应类别的权重包括:将每个分类器集合中各基分类器的分类权重进行累加,以作为该分类器集合所对应类别的权重。据此,上述实施例具有如下优点或有益效果:能够使分类器集合能够包含各基分类器的分类性能,从而综合性确定分类器集合的类别权重,以使分类器集合结合其类别权重进行分类时具有更广泛的适用性。进一步地,所述训练样本集和所述测试样本集为相同或不同的样本集,所述训练样本集和所述测试样本集中样本数据的属性相同,标注类别范围相同。据此,上述实施例具有如下优点或有益效果:通过上述训练样本和测试样本的选取方案,从而使样本既能够涵盖广泛的验本特征,又能够具备同一属性的特征一致性,以提高样本的参考价值,提高分类模型训练的准确性。本申请实施例还公开了一种分类模型的使用方法,所述分类模型采用上述任一所述的分类模型的训练方法训练获得,所述使用方法包括:将待分类数据输入所述分类模型的至少一个分类器集合,由各基分类器进行计算以输出分类概率;根据各基分类器的分类概率和分类权重,确定各基分类器输出的分类结果;根据分类器集合中各基分类器的分类结果,确定所述待分类数据的类别。据此,上述实施例具有如下优点或有益效果:通过结合各基分类器的分类概率和分类权重,确定分类结果,进而确定待分类数据的类别,从而在分类过程中融入根据各基分类器的分类性能确定的分类权重,以提高分类的整体准确性,适用于对不平衡数据的分类。进一步地,如果所述分类器集合的数量为多个,则根据分类器集合中各基分类器的分类结果,确定所述待分类数据的类别包括:针对每个分类器集合,将各基分类器的分类结果进行累加,以得到类别分类结果;根据各分类器集合的类别分类结果和类别权重,进行累加,以得到所述待分类数据的类别。据此,上述实施例具有如下优点本文档来自技高网...

【技术保护点】
1.一种分类模型的训练方法,其特征在于,所述方法包括:/n利用训练样本集,采用集成学习算法对分类模型进行训练,以获得至少一个分类器集合,所述分类器集合中包括至少两个基分类器;/n采用测试样本集,对所述分类器集合进行测试,以确定各基分类器的分类性能,并根据所述分类性能确定各基分类器的分类权重;/n其中,所述分类权重用于在使用所述分类器集合进行样本分类时,确定各所述基分类器分类结果的权重。/n

【技术特征摘要】
1.一种分类模型的训练方法,其特征在于,所述方法包括:
利用训练样本集,采用集成学习算法对分类模型进行训练,以获得至少一个分类器集合,所述分类器集合中包括至少两个基分类器;
采用测试样本集,对所述分类器集合进行测试,以确定各基分类器的分类性能,并根据所述分类性能确定各基分类器的分类权重;
其中,所述分类权重用于在使用所述分类器集合进行样本分类时,确定各所述基分类器分类结果的权重。


2.根据权利要求1所述的方法,其特征在于,利用训练样本集,采用集成学习算法对分类模型进行训练,以获得至少一个分类器集合包括:
利用训练样本集,采用多目标遗传规划算法对分类模型进行训练,以获得至少一个分类器集合;
其中,每个分类器集合的多个训练目标中至少包括:被模型分类错误的正类样本最少;被模型分类错误的负类样本最少。


3.根据权利要求1所述的方法,其特征在于,所述分类模型中的分类器集合的数量为多个,分别对应不同的类别。


4.根据权利要求1所述的方法,其特征在于,所述基分类器的分类性能包括下述至少一个:精确率、召回率、精确率和召回率的几何均值、以及精确率和召回率的调和平均值。


5.根据权利要求1所述的方法,其特征在于,采用测试样本集,对所述分类器集合进行测试,以确定各基分类器的分类性能,并根据所述分类性能确定各基分类器的分类权重包括:
采用测试样本集,对所述分类器集合进行测试,统计每个基分类器将测试样本进行错误分类的正样本数量和错误分类的负样本数量;
从所有基分类器中确定最大错误分类正样本数量和最大错误分类负样本数量;
根据每个基分类器的错误分类正样本数量和错误分类负样本数量,与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系,确定所述基分类器的分类权重。


6.根据权利要求5所述的方法,其特征在于,根据每个基分类器的错误分类正样本数量和错误分类负样本数量,与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系,确定所述基分类器的分类权重包括:
按照如下公式确定每个所述基分类器的分类权重wj:



其中,为错误分类正样本数量,为错误分类负样本数量,为最大错误分类正样本数量,为最大错误分类负样本数量。


7.根据权利要求5或6所述的方法,其特征在于,确定所述基分类器的分类权重之后,还包括:
如果所述分类器集合的数量为多个,则针对每个分类器集合中各基分类器的分类权重,确定该分类器集合所对应类别的权重,作为所述分类器集合的类别权重。


8.根据权利要求7所述的方法,其特征在于,针对每个分类器集合中各基分类器的分类权重,确定该分类器集合所对应类别的权重包括:
将每个分类器集合中各基分类器的...

【专利技术属性】
技术研发人员:盛文佳吴明丹高春旭叶峻
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1