一种分类模型训练方法及计算机设备技术

技术编号：28376176 阅读：34 留言：0更新日期：2021-05-08 00:03

本申请涉及模型训练技术领域，提供了一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质。其中，一种分类模型训练方法，从初始样本集合中挖掘出正样本集合，以及与正样本集合对应的候选样本集合，由于候选样本集合是基于正样本集合从初始样本集合中挖掘得到，因此候选样本集合中的样本是考虑了样本的全局分布得到，并且利用预先构建的生成式对抗网络，基于候选样本集合与正样本集合进行样本训练，输出的补充样本集合不具有特征偏性，再将基于补充样本集合与正样本集合得到的目标样本集合，用于对预设分类模型进行训练，由于目标训练样本集合中因正负样本均衡且无特征偏性，因此使得训练后的分类模型具有更好的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种分类模型训练方法及计算机设备
本专利技术属于涉及模型训练及区块链技术，尤其涉及一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质。
技术介绍
随着人工智能技术的不断发展，基于神经网络开发的机器学习模型也根据不同的需求在更新迭代。然而，现有的分类模型在训练过程中，由于训练样本不足，因此常常需要基于初始样本进行样本扩充，进而得到具有一定样本数量的训练样本。例如，当初始样本集合中的正样本数量较少时，通过简单复制正样本的方式能够快速提高初始样本集合中的正样本占比；或者，通过减少初始样本集合中的负样本占比，使得样本集合中的正样本占比提升。但是，无论是增加初始样本集合中正样本数量还是减少负样本数量，都会导致所得训练样本存在特征偏性，而利用该训练样本对分类模型进行训练，则容易导致训练后的分类模型存在鲁棒性较差的问题。
技术实现思路
有鉴于此，本申请实施例提供了一种分类模型训练方法、分类模型训练装置、计算机设备及计算机可读存储介质，以解决现有的分类模型训练方案中，存在训练后的分类模型存在鲁

【技术保护点】
1.一种分类模型训练方法，其特征在于，包括：/n从初始样本集合中挖掘出正样本集合，以及与所述正样本集合对应的候选样本集合；/n利用预先构建的生成式对抗网络，基于所述候选样本集合与所述正样本集合输出补充样本集合；/n利用基于所述补充样本集合与所述正样本集合得到的目标样本集合，对预设分类模型进行训练，得到训练后的分类模型。/n

【技术特征摘要】
1.一种分类模型训练方法，其特征在于，包括：
从初始样本集合中挖掘出正样本集合，以及与所述正样本集合对应的候选样本集合；
利用预先构建的生成式对抗网络，基于所述候选样本集合与所述正样本集合输出补充样本集合；
利用基于所述补充样本集合与所述正样本集合得到的目标样本集合，对预设分类模型进行训练，得到训练后的分类模型。

2.根据权利要求1所述的分类模型训练方法，其特征在于，所述从初始样本集合中挖掘出正样本集合，以及与所述正样本集合对应的候选样本集合，包括：
根据预设样本条件从所述初始样本集合中确定出正样本集合与负样本集合；
从所述负样本集合中确定出候选样本集合。

3.根据权利要求2所述的分类模型训练方法，其特征在于，所述从所述负样本集合中确定出候选样本集合，包括：
测算所述负样本与参考样本之间的相似度；其中，所述参考样本为所述正样本集合中的任一正样本；
若所述相似度等于或大于预设阈值，则将所述负样本作为参考样本，得到参考样本集合。

4.根据权利要求3所述的分类模型训练方法，其特征在于，所述测算所述负样本与参考样本之间的相似度，包括：
通过以下公式测算得到所述负样本与参考样本之间的相似度；

其中，DM(x，y)为所述相似度；x为所述参考样本中目标维度的第一数据；y为所述负样本中目标维度的第二数据；T表示装置；∑-1表示所述第一数据与所述第二数据之间特征向量的协方差矩阵。

5.根据权利要求1所述的分类模型训练方法，其特征在于，所述生成式对抗网络包括生成模型与判别模型；
所述利用预先构建的生成式对抗网络，基于所述候选样本集合与所述正样本集合输出补充样本集合，包括：
通过所述生成模型根据所述候选样本集合生成第一样本集合；

【专利技术属性】
技术研发人员：杨德杰，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人