分类模型的训练和使用方法、装置、设备和介质制造方法及图纸

技术编号：24331872 阅读：47 留言：0更新日期：2020-05-29 20:00

本申请公开了一种分类模型的训练和使用方法、装置、设备和介质，涉及人工智能技术领域。该训练方法包括：利用训练样本集，采用集成学习算法对分类模型进行训练，以获得至少一个分类器集合，所述分类器集合中包括至少两个基分类器；采用测试样本集，对所述分类器集合进行测试，以确定各基分类器的分类性能，并根据所述分类性能确定各基分类器的分类权重；其中，所述分类权重用于在使用所述分类器集合进行样本分类时，确定各所述基分类器分类结果的权重。本申请实施例能够保证集成学习中基分类器的多样性，并使分类器对少数类和多数类具有共同的分类性能，以使分类模型适用于样本不均衡的情况。

Training and using methods, devices, equipment and media of classification model

全部详细技术资料下载

【技术实现步骤摘要】
分类模型的训练和使用方法、装置、设备和介质
本申请涉及计算机
，尤其涉及一种人工智能技术。
技术介绍
近年来，大数据与人工智能技术迅猛发展，语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。分类问题是机器学习和数据挖掘领域中最为典型的问题。然而，现实应用场景中，分类数据集，大都存在着明显的类别分布不平衡问题，即同一数据样本中，某些类别样本数量远远多于其他几个或者某个类别的情况。这种数据集被称作类别不平衡数据集，不平衡数据集很可能导致训练得到的模型性能差，使其无法达到理想的应用效果和应用性能。
技术实现思路
本申请实施例提供的一种分类模型的训练和使用方法、装置、设备和介质，以实现提高分类模型对不均衡样本的适用性。本申请实施例公开了一种分类模型的训练方法，该方法包括：利用训练样本集，采用集成学习算法对分类模型进行训练，以获得至少一个分类器集合，所述分类器集合中包括至少两个基分类器；采用测试样本集，对所述分类器集合进行测试，以确定各基分类器的分类性能，并根据所述分类性能确定各基分类器的分类权重；其中，所述分类权重用于在使用所述分类器集合进行样本分类时，确定各所述基分类器分类结果的权重。上述实施例具有如下优点或有益效果：通过训练得到至少一个分类器集合，并根据其中各基分类器的分类性能确定各基分类器的分类权重，用于在分类时结合权重确定最终类别，从而克服了分类模型对不平衡数据的处理性能差的问题，保证了集成学习中基分类器的多样性，并使分类器对少数类和多...

【技术保护点】
1.一种分类模型的训练方法，其特征在于，所述方法包括：/n利用训练样本集，采用集成学习算法对分类模型进行训练，以获得至少一个分类器集合，所述分类器集合中包括至少两个基分类器；/n采用测试样本集，对所述分类器集合进行测试，以确定各基分类器的分类性能，并根据所述分类性能确定各基分类器的分类权重；/n其中，所述分类权重用于在使用所述分类器集合进行样本分类时，确定各所述基分类器分类结果的权重。/n

【技术特征摘要】
1.一种分类模型的训练方法，其特征在于，所述方法包括：
利用训练样本集，采用集成学习算法对分类模型进行训练，以获得至少一个分类器集合，所述分类器集合中包括至少两个基分类器；
采用测试样本集，对所述分类器集合进行测试，以确定各基分类器的分类性能，并根据所述分类性能确定各基分类器的分类权重；
其中，所述分类权重用于在使用所述分类器集合进行样本分类时，确定各所述基分类器分类结果的权重。

2.根据权利要求1所述的方法，其特征在于，利用训练样本集，采用集成学习算法对分类模型进行训练，以获得至少一个分类器集合包括：
利用训练样本集，采用多目标遗传规划算法对分类模型进行训练，以获得至少一个分类器集合；
其中，每个分类器集合的多个训练目标中至少包括：被模型分类错误的正类样本最少；被模型分类错误的负类样本最少。

3.根据权利要求1所述的方法，其特征在于，所述分类模型中的分类器集合的数量为多个，分别对应不同的类别。

4.根据权利要求1所述的方法，其特征在于，所述基分类器的分类性能包括下述至少一个：精确率、召回率、精确率和召回率的几何均值、以及精确率和召回率的调和平均值。

5.根据权利要求1所述的方法，其特征在于，采用测试样本集，对所述分类器集合进行测试，以确定各基分类器的分类性能，并根据所述分类性能确定各基分类器的分类权重包括：
采用测试样本集，对所述分类器集合进行测试，统计每个基分类器将测试样本进行错误分类的正样本数量和错误分类的负样本数量；
从所有基分类器中确定最大错误分类正样本数量和最大错误分类负样本数量；
根据每个基分类器的错误分类正样本数量和错误分类负样本数量，与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系，确定所述基分类器的分类权重。

6.根据权利要求5所述的方法，其特征在于，根据每个基分类器的错误分类正样本数量和错误分类负样本数量，与所述最大错误分类正样本数量和最大错误分类负样本数量之间的比例关系，确定所述基分类器的分类权重包括：
按照如下公式确定每个所述基分类器的分类权重wj：

其中，为错误分类正样本数量，为错误分类负样本数量，为最大错误分类正样本数量，为最大错误分类负样本数量。

7.根据权利要求5或6所述的方法，其特征在于，确定所述基分类器的分类权重之后，还包括：
如果所述分类器集合的数量为多个，则针对每个分类器集合中各基分类器的分类权重，确定该分类器集合所对应类别的权重，作为所述分类器集合的类别权重。

8.根据权利要求7所述的方法，其特征在于，针对每个分类器集合中各基分类器的分类权重，确定该分类器集合所对应类别的权重包括：
将每个分类器集合中各基分类器的...

【专利技术属性】
技术研发人员：盛文佳，吴明丹，高春旭，叶峻，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人