分类模型的训练方法、分类方法、装置、介质及设备制造方法及图纸

技术编号：31229371 阅读：18 留言：0更新日期：2021-12-08 09:58

本发明专利技术公开了分类模型的训练方法、分类方法、装置、介质及设备。其中分类模型的训练方法包括：获取未设置分类标签的第一样本数据，将所述第一样本数据输入至预先训练的基础分类模型中，确定所述第一样本数据设置预设分类标签的概率，其中，所述基础分类模型基于设置预设分类标签的第二样本数据训练得到；基于所述第一样本数据设置分类标签的概率确定所述第一样本数据的权重；基于第二样本数据、所述第一样本数据以及所述第一样本数据的权重对待训练的分类模型进行训练，得到目标分类模型。实现对未设置标签的样本数据的标签处理，替代了人工对样本设置标签，降低了样本数据预处理过程的时间和人工成本，进一步实现了对分类模型的弱监督训练。型的弱监督训练。型的弱监督训练。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型的训练方法、分类方法、装置、介质及设备

[0001]本专利技术实施例涉及深度学习
，尤其涉及分类模型的训练方法、分类方法、装置、介质及设备。

技术介绍

[0002]基于监督方式的机器学习模型的训练方式是机器学习模型的常用训练方法，其中，该训练方法需足够数量的标记样本。
[0003]在实现本专利技术的过程中，专利技术人发现现有技术中至少存在以下技术问题：在很多实际的应用场景中，获取样本的标记需要耗费大量的人力和物力，代价昂贵，导致实际应用中存在的往往是少量的有分类标签样本与大量的无分类标签样本，无法实现上述监督训练过程。

技术实现思路

[0004]本专利技术实施例提供分类模型的训练方法、分类方法、装置、介质及设备，以实现对机器学习模型的弱监督训练。
[0005]第一方面，本专利技术实施例提供了一种分类模型的训练方法，包括：
[0006]获取未设置分类标签的第一样本数据，将所述第一样本数据输入至预先训练的基础分类模型中，确定所述第一样本数据设置预设分类标签的概率，其中，所述基...

【技术保护点】

【技术特征摘要】
1.一种分类模型的训练方法，其特征在于，包括：获取未设置分类标签的第一样本数据，将所述第一样本数据输入至预先训练的基础分类模型中，确定所述第一样本数据设置预设分类标签的概率，其中，所述基础分类模型基于设置预设分类标签的第二样本数据训练得到；基于所述第一样本数据设置分类标签的概率确定所述第一样本数据的权重；基于第二样本数据、所述第一样本数据以及所述第一样本数据的权重对待训练的分类模型进行训练，得到目标分类模型。2.根据权利要求1所述的方法，其特征在于，所述预设分类标签为正样本标签或负样本标签；所述基础分类模型的训练方法包括：获取初始训练样本，其中，所述初始训练样本包括设置分类标签的第二样本数据和未设置分类标签的第一样本数据，所述第二样本数据和所述第一样本数据分别设置有对应的标签设置标识；将所述初始训练样本输入至待训练的基础分类模型中，输出所述初始训练样本的标签设置概率；基于所述标签设置概率和所述初始训练样本对应的标签设置标识确定损失函数，并基于所述损失函数反向调节所述待训练的基础分类模型的模型参数，以得到训练完成的基础分类模型。3.根据权利要求1所述的方法，其特征在于，在确定所述第一样本数据设置预设分类标签的概率之后，所述方法还包括：基于预先设置的置信阈值和第一样本数据对应的概率，确定拒绝样本；从所述第一样本数据中剔除所述拒绝样本。4.根据权利要求3所述的方法，其特征在于，所述置信阈值基于所述预设分类标签的样本期望确定；所述基于预先设置的置信阈值和第一样本数据对应的概率，确定拒绝样本，包括：基于所述第一样本数据对应的概率确定满足所述置信阈值对应的拒绝概率范围的第一样本数据，确定为拒绝样本。5.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本数据设置分类标签的概率确定所述第一样本数据的权重，包括：基于所述第一样本数据设置分类标签的概率确定所述第一样本数据的虚拟标签；根据所述虚拟标签的权重确定规则，以及所述第一样本数据设置分类标签的概率确定对应权重。6.根据权利要求1所述的方法，其特征在于，所述基于第二样本数据、所述第一样本数据以及所述第一样本数据的权重对待训练的分类模型进行训练，得到目...

【专利技术属性】
技术研发人员：杨滨源，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人