一种模型训练的方法、装置、存储介质及电子设备制造方法及图纸

技术编号：36406020 阅读：26 留言：0更新日期：2023-01-18 10:14

本说明书提供了一种模型训练的方法、装置、存储介质及电子设备。在本说明书提供的模型训练方法中，获取训练样本、样本标签以及打标环境信息；将所述训练样本输入待训练的目标模型中，确定所述目标模型的输出结果；将所述打标环境信息输入置信度网络中，通过所述置信度网络输出所述样本标签的置信度；根据所述样本标签的置信度，调整所述目标模型的输出结果，得到修正结果；以所述修正结果与所述样本标签之间的差异最小为优化目标，对所述目标模型与所述置信度网络进行训练。采用本说明书提供的模型训练方法对模型进行有监督训练时，能够根据样本标签的可信程度对模型的输出结果进行修正，保证模型的训练效果，同时使标签的利用率最大化。利用率最大化。利用率最大化。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练的方法、装置、存储介质及电子设备

[0001]本说明书涉及计算机
，尤其涉及一种模型训练的方法、装置、存储介质及电子设备。

技术介绍

[0002]目前，有监督训练是在模型训练中被广泛使用的方法之一。在有监督训练中，主要会根据样本的标签与被训练的模型的输出结果来对模型的参数进行调整。因此，样本标签是否准确对模型的训练效果起着决定性的作用。
[0003]然而，在实际对模型的训练中，往往无法保证训练的标签都是准确的，例如，不同打标用户对样本的理解不同，打出的标签可能也不同；再例如，打标过程中可能会出现恶意打标，故意对样本打上错误的标签。由于上述种种原因，以及用户对自身隐私数据的保护，可能会导致模型在训练时采用了不准确、甚至是错误的标签，最终使模型的训练效果变差。
[0004]因此，如何在标签可能有误的情况下保证较好的模型训练效果是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种模型训练方法及模型训练装置，以部分的解决现有技术存在的上述问题。
[0006]本说...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法，包括：获取训练样本、样本标签以及打标环境信息；将所述训练样本输入待训练的目标模型中，确定所述目标模型的输出结果；将所述打标环境信息输入置信度网络中，通过所述置信度网络输出所述样本标签的置信度；根据所述样本标签的置信度，调整所述目标模型的输出结果，得到修正结果；以所述修正结果与所述样本标签之间的差异最小为优化目标，对所述目标模型与所述置信度网络进行训练。2.如权利要求1所述的方法，获取训练样本、样本标签以及打标环境信息，具体包括：根据用户执行的业务确定训练样本；获取用户执行所述业务的执行结果，根据所述执行结果确定样本标签；根据所述用户执行所述业务时对应的环境信息，确定打标环境信息。3.如权利要求2所述的方法，根据所述用户在执行业务时对应的环境信息，确定打标环境信息，具体包括：确定所述用户执行业务时采集的时间信息、位置信息、环境信息以及所述用户的用户特征中的至少一种，作为打标环境信息；和/或，根据所述用户的用户标识，确定所述用户的用户画像和历史打标信息中的至少一种，作为打标环境信息。4.如权利要求1所述的方法，根据所述样本标签的置信度，调整所述目标模型的输出结果，得到修正结果，具体包括：根据所述样本标签的置信度，判断所述样本标签是否可信；当确定所述样本标签不可信时，调整所述目标模型的输出结果，得到修正结果。5.如权利要求4所述的方法，根据所述样本标签的置信度，判断所述样本标签是否可信，具体包括：当所述样本标签的置信度不小于指定阈值时，确定所述样本标签可信；当所述样本标签的置信度小于指定阈值时，确定所述样本标签不可信。6.如权利要求1所述的方法，所述目标模型为概率预测模型；调整所述目标模型的输出结果，得到修正结果，具体包括：将所述置信度作为权重，对所述目标模型输出的概率进行加权，确定修正结果。7.如权利要求4所述的方法，所述目标模型为二分类模型；调整所述目标模型的输出结果，得到修正结果，具体包括：将所述目标模型的输出结果反置，得到修正结果。8.一种模型训练装置，包括：获取模块，用于获取训练样本、样本标签以及打标环境信...

【专利技术属性】
技术研发人员：赵闻飙，崔世文，李志峰，许卓尔，孟昌华，王维强，徐恪，李琦，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人