一种模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30521391 阅读：18 留言：0更新日期：2021-10-27 23:05

本申请提供了一种模型训练方法、装置、电子设备及存储介质，属于机器学习技术领域。本申请通过获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。从而减少训练目标模型的数据量，提高目标模型的训练效率。提高目标模型的训练效率。提高目标模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、电子设备及存储介质

[0001]本申请涉及机器学习
，尤其涉及一种模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]风控是信贷领域的核心内容，风控模型是以数据为依据，对贷款人资质和风险水平的预测，对控制信贷风险有极其重要的作用。随着机器学习和深度学习的不断发展，机器学习及深度学习逐渐应用在风控模型的构建中。
[0003]目前，构建风控模型时，为了保证模型预测依据的可靠性，通常利用多个数据源的数据训练风控模型，每个数据源对应不同的业务含义，有的来自平台自身，有的来自数据供应商。其过程为：将多个数据源的数据统一收集到一起，然后将所有数据作为训练数据对模型进行训练，从而避免某一个数据源的数据起绝对主导作用，且多数据源的训练数据做支撑能增加模型的可靠性和稳定性。
[0004]然而，基于多个数据源的所有数据去训练模型，模型最终会包含多个数据源的所有数据。当某一个数据源变化时，通常要移除模型中使用的该数据源的全部数据，然后利用剩余的数据重新训练模型，或添加其他数据源的数据和剩余的数据一起重新训练模型，因此，模型的训练效率比较低，模型的迭代周期也比较长。

技术实现思路

[0005]本申请实施例的目的在于提供一种模型训练方法、装置、电子设备及存储介质，以解决基于多个数据源的所有数据去训练模型，模型的训练效率比较低的问题。具体技术方案如下：
[0006]第一方面，提供了一种模型训练方法，所述方法包括：
[0007]获取目标对象对应的至少两个数据...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。2.根据权利要求1所述的方法，其特征在于，所述预测模型包括：至少两个预测子模型；所述将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，包括：针对每个预测子模型，将所述数据源的目标数据输入至所述预测子模型，得到预测子数据，得到至少两个所述预测子数据，所述预测子模型是预先通过所述样本数据及所述样本标签训练得到的；基于至少两个所述预测子数据确定所述数据源对应的预测数据。3.根据权利要求2所述的方法，其特征在于，所述预测子数据包括至少两个类别；所述基于至少两个所述预测子数据确定所述数据源对应的预测数据，包括：针对每个类别，在至少两个所述预测子数据中，确定所述类别对应的预测子数据的数量；将至少两个所述类别对应的预测子数据的数量按照由多到少的顺序进行排序；将排序在首位的类别对应的预测子数据作为预测数据。4.根据权利要求2所述的方法，其特征在于，所述基于至少两个所述预测子数据确定所述数据源对应的预测数据，包括：针对每个预测子模型，确定所述预测子模型对应的第一评分数据，所述第一评分数据用于表征所述预测子模型的预测效果；基于所述第一评分数据确定所述预测子模型对应的第一权重信息；基于所述第一权重信息确定所述预测子模型输出所述预测子数据的概率，将概率最高的预测子数据确定为所述数据源对应的预测数据。5.根据权利要求2所述的方法，其特征在于，所述基于至少两个...

【专利技术属性】
技术研发人员：李晓晓，刘慈文，
申请(专利权)人：上海晓途网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人