分类器的训练方法及装置、分类装置制造方法及图纸

技术编号:34333886 阅读:23 留言:0更新日期:2022-07-31 02:36
本公开提供了分类器的训练方法及装置、分类装置,涉及计算机技术领域,尤其涉及深度学习领域。具体实现方案为:获取原始不平衡样本集;根据所述原始不平衡样本集和随机噪声生成第一样本集,其中所述第一样本集中包括被标记为正样本的样本和被标记为负样本的样本;从所述第一样本集中剔除不符合预设条件的样本得到目标样本集;以所述原始不平衡样本集和所述目标样本集的合集为训练数据集,对目标分类器进行训练,其中,所述目标分类器用于完成对待分类不平衡样本集的分类。分类不平衡样本集的分类。分类不平衡样本集的分类。

【技术实现步骤摘要】
分类器的训练方法及装置、分类装置


[0001]本公开涉及计算机
,尤其涉及深度学习领域。

技术介绍

[0002]机器学习中经常会遇到数据的类别不均衡的问题,也叫数据偏斜。数据偏斜在众多的实际应用场景下都会发生,例如疾病检测、信用卡诈欺侦测、网络入侵检测等。数据偏斜对于机器学习的算法结果会产生非常差的影响,会让算法本身更加偏向于数据量较多的标签,而对于数据量小的标签表现很差。针对数据偏斜问题,相关技术中常采用随机重采样的方法,来平衡多类样本的数量,具体通过欠采样方法在训练过程中随机从多数类中去除样本,以减少多数类的样本数量以及过采样方法在原始数据集中随机选取少数类样本,并对所选样本进行复制,以增加少数类样本的数量。亦或是通过降低高置信度类别的重要性而提高低置信度类别的重要性。除此之外,数据增强也可以用来解决数据偏斜的问题。如以线性差值为原理的合成少类样本技术(Synthetic Minority Oversampling Technique,SMOTE)算法可以在小类别样本下产生新的数据。

技术实现思路

[0003]本公开提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分类器的训练方法,包括:获取原始不平衡样本集;根据所述原始不平衡样本集和随机噪声生成第一样本集,其中所述第一样本集中包括被标记为正样本的样本和被标记为负样本的样本;从所述第一样本集中剔除不符合预设条件的样本得到目标样本集;以所述原始不平衡样本集和所述目标样本集的合集为训练数据集,对目标分类器进行训练,其中,所述目标分类器用于完成对待分类不平衡样本集的分类。2.根据权利要求1所述的方法,其中,所述从所述第一样本集中剔除不符合预设条件的样本得到目标样本集,包括:利用第一鉴别器从所述第一样本集中随机剔除所述负样本,得到第二样本集,所述第一样本集中的所有被标记为负样本的样本被剔除的概率均为设定概率;利用第二鉴别器从所述第二样本集中剔除被所述第二鉴别器鉴别为负样本的样本,得到所述目标样本集。3.根据权利要求2所述的方法,其中,所述利用第二鉴别器从所述第二样本集中剔除被所述第二鉴别器鉴别为负样本的样本,得到所述目标样本集,包括:获取所述第二鉴别器中的多个预先确定的第一分类器对所述第一样本集中的样本的标记;将所述第二样本集中被目标数量所述第一分类器标记为负样本的样本确定为所述被所述第二鉴别器鉴别为负样本的样本;剔除所述被所述第二鉴别器鉴别为负样本的样本,得到所述目标样本集。4.根据权利要求1所述的方法,其中,还包括:调整所述待分类不平衡样本集中第一类样本和第二类样本的损失权重使所述第一类样本的损失权重小于所述第二类样本的损失权重;利用调整后的损失权重对所述待分类不平衡样本集进行分类。5.根据权利要求1所述的方法,其中,所述根据所述原始不平衡样本集和随机噪声生成第一样本集,包括:根据所述原始不平衡样本集和所述随机噪声生成候选样本集;对所述候选样本集中的样本进行标记,得到所述第一样本集,其中,所述标记包括:标记为正样本和标记为负样本。6.根据权利要求5所述的方法,其中,所述根据所述原始不平衡样本集和所述随机噪声生成候选样本集,包括:利用预先构建的高斯混...

【专利技术属性】
技术研发人员:刘吉侯亚新张重生周航窦德景
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1