【技术实现步骤摘要】
一种分类模型的训练方法、装置、设备和存储介质
[0001]本专利技术实施例涉及可信人工智能
,尤其涉及一种分类模型的训练方法、装置、设备和存储介质。
技术介绍
[0002]随着计算机技术的快速发展,机器学习模型被广泛应用,例如图像分类、欺诈检测、情绪分析、面部识别、语音理解、自动驾驶、医学诊断、推荐系统等。由于训练数据标注和模型设计中往往对某些敏感属性存在偏见,使得训练出的分类模型在应用中会强化对敏感属性的偏见和歧视,进而导致决策过程中的不公平现象产生。
[0003]目前,为了缓解分类模型在应用中出现的不公平现象,可以通过在分类模型中增加约束项或正则项以促进偏见消除。
[0004]然而,在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]现有的去偏方式需要修改原有的分类模型内部的分类逻辑,不能直接兼容原有分类模型,灵活性较差。
技术实现思路
[0006]本专利技术实施例提供了一种分类模型的训练方法、装置、设备和存储介质,以去除分类模型中存在的偏见,保证 ...
【技术保护点】
【技术特征摘要】
1.一种分类模型的训练方法,其特征在于,包括:获取预设敏感属性对应的样本数据集,并确定所述预设敏感属性对应的各个属性值样本类别;基于各个属性值样本类别之间的当前采样比例,对所述样本数据集进行采样,获得当前样本数据子集,并基于当前样本数据子集对预设分类模型进行当轮训练;基于当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定各个属性值样本类别之间的下一采样比例;基于下一采样比例对预设分类模型进行下轮训练,直到当前满足预设收敛条件时,预设分类模型训练结束,获得保障公平性的目标分类模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述预设敏感属性对应的各个属性值样本类别,包括:基于预设敏感属性对应的各个属性值和各个标签类别进行划分,确定出所述预设敏感属性对应的各个属性值样本类别;或者,基于预训练分类模型,对预设敏感属性对应的样本数据集中的每个样本数据进行预分类,获得包含有预分类预测类别的样本数据集,并基于预设敏感属性对应的各个属性值、各个标签类别和各个预分类预测类别进行划分,确定出所述预设敏感属性对应的各个属性值样本类别。3.根据权利要求1所述的方法,其特征在于,所述基于当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定各个属性值样本类别之间的下一采样比例,包括:基于当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定每个属性值样本类别对应的下一采样权重;对每个属性值样本类别对应的下一采样权重进行归一化处理,确定各个属性值样本类别之间的下一采样比例。4.根据权利要求3所述的方法,其特征在于,所述基于当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定每个属性值样本类别对应的下一采样权重,包括:从各个属性值样本类别中确定出与预设公平性指标相匹配的第一属性值样本类别;基于所述第一属性值样本类别对应的当前采样权重、当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定所述第一属性值样本类别对应的下一采样权重;将第二属性值样本类别对应的当前采样权重确定为所述第二属性值样本类别对应的下一采样权重,其中,所述第二属性值样本类别是指除所述第一属性值样本类别之外的其他属性值样本类别。5.根据权利要求4所述的方法,其特征在于,在所述属性值样本类别不包含预分类预测类别信息时,所述从各个属性值样本类别中确定出与预设公平性指标相匹配的第一属性值样本类别,包括:若预设公平性指标为机会均等,则将所述预设敏感属性中存在偏见的每个敏感属性值对应的正样本类别作为第一属性值样本类别;
若预设公平性指标为几率均等,则将所述预设敏感属性中存在偏见的每个敏感属性值对应的正样本类别和负样本类别均作为第一属性值样本类别。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一属性值样本类别对应的当前采样权重、当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定所述第一属性值样本类别对应的下一采样权重,包括:基于当前样本数据子集中的每个样本数据对应的当前预测类别和标签类别,确定所述第一属性值样本类别对应的预测准确度;基于所述预测准确度和所述第一属性值样本类别对应的当前采样权重,确定所述第一属性值样本类别对应的下一采样权重。7.根据权利要求4所述的方法,其特征在于,在所述属性值样本类别包含预分类预测类别信息时,所述从各个属性值样本类别中确定出与预设公平性指标相匹配的第一属性值样本类别,包括:若预设公平性指标为机会均等,则将所述预设敏感属性中存在偏见的每个敏感属性值对应的预分类预测准确的正样本类别作为第一属性值样本类别;若预设公平性指标为几率均等,则将所述预设敏感属性中存在偏见的每个敏感属性值对应的预分类预测准确的正样本类别和负样本类别均作为第一属性值样本类别;若预设公平性指标为人口平价,则将所述预设敏感属性中存在偏见的每个敏感属性值对应的预分类预测类别为正类别的正样本类别和负样本类别均作为第一属性值样本类别。8.根据权利要求7所述的方法,其特征在于,所述基于所述第一属性值样本类别对应的当前采样权重、当前样本...
【专利技术属性】
技术研发人员:何凤翔,胡郅昊,傅少鹏,陶大程,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。