机器学习模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：32456197 阅读：22 留言：0更新日期：2022-02-26 08:34

本公开提供一种机器学习模型的训练方法、装置、电子设备和存储介质。该方法包括：利用第一数据集进行机器学习训练，得到第一模型；利用第二数据集的子集对第一模型进行更新，得到第二模型；根据第二模型在第一数据集上的预测结果，从第二数据集的子集中筛选出目标数据；将目标数据由第二数据集转移至第一数据集，得到更新后的第一数据集；利用更新后的第一数据集对第二模型进行更新，得到目标模型。该方法能够实现同特征但是数据量数据分布不一致的迁移训练。迁移训练。迁移训练。

全部详细技术资料下载

【技术实现步骤摘要】
机器学习模型的训练方法、装置、电子设备和存储介质

[0001]本公开的实施例涉及机器学习
，具体涉及机器学习模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]目前迁移训练的方式可以分为两种。一种是特征的迁移，一种是同特征但是数据量数据分布不一致的迁移的。第一种特征的迁移研究在学术领域，目前商用的就是联邦训练的方式，本质是基于加密算法的特征撞库。第二种同特征但是数据量数据分布不一致的迁移停留在理论阶段，比如one
‑
shot learning等，缺少可落地的迁移方法。
[0003]因此，有必要提出一种新的进行机器学习模型训练的技术方案。

技术实现思路

[0004]本公开的实施例提出了机器学习模型的训练方法、装置、电子设备和存储介质。
[0005]第一方面，本公开提供了一种机器学习模型的训练方法，包括：
[0006]利用第一数据集进行机器学习训练，得到第一模型，其中，上述第一数据集中的第一数据具有相应的标注标签；
[0007]利用第二数据集的子集对上述第一模型进行更新，得到第二模型，其中，上述第二数据集的子集中的第二数据具有通过上述第一模型获得的预测标签；
[0008]根据上述第二模型在上述第一数据集上的预测结果，从上述第二数据集的子集中筛选出目标数据；
[0009]将上述目标数据由上述第二数据集转移至上述第一数据集，得到更新后的第一数据集；
[0010]利用上述更新后的第一数据集对上述第二模型进行更新，得到目...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型的训练方法，包括：利用第一数据集进行机器学习训练，得到第一模型，其中，所述第一数据集中的第一数据具有相应的标注标签；利用第二数据集的子集对所述第一模型进行更新，得到第二模型，其中，所述第二数据集的子集中的第二数据具有通过所述第一模型获得的预测标签；根据所述第二模型在所述第一数据集上的预测结果，从所述第二数据集的子集中筛选出目标数据；将所述目标数据由所述第二数据集转移至所述第一数据集，得到更新后的第一数据集；利用所述更新后的第一数据集对所述第二模型进行更新，得到目标模型。2.根据权利要求1所述的方法，其中，所述方法还包括：将所述目标模型作为新的所述第一模型，重复执行从对所述第一模型进行更新至得到目标模型的处理过程，直至达到预设的停止条件。3.根据权利要求1所述的方法，其中，所述利用第二数据集的子集对所述第一模型进行更新，得到第二模型，包括：将所述第二数据集中的所述第二数据输入所述第一模型，得到所述第二数据的预测标签以及相应的预测概率；基于所述第二数据对应的所述预测概率，对所述第二数据集中的所述第二数据进行筛选，得到所述第二数据集的子集；利用所述第二数据集的子集对所述第一模型进行机器学习训练，得到所述第二模型。4.根据权利要求3所述的方法，其中，所述基于所述第二数据对应的所述预测概率，对所述第二数据集中的所述第二数据进行筛选，得到所述第二数据集的子集，包括：选取所述第二数据集中预测概率大于第一阈值的全体第二数据，以及在预测概率大于第二阈值并且小于或者等于所述第一阈值的第二数据中进行随机抽取，以得到所述第二数据集的子集，其中，所述第一阈值大于所述第二阈值。5.根据权利要求1所述的方法，其中，所述根据所述第二模型在所述第一数据集上的预测结果，从所述第二数据集的子集中筛选出目标数据，包括：将所述第一数据集中的第一数据输入所述第二模型，得到所述第一数...

【专利技术属性】
技术研发人员：吴雨霏，
申请(专利权)人：中信百信银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人