一种模型训练的方法、装置、存储介质及电子设备制造方法及图纸

技术编号：39244405 阅读：10 留言：0更新日期：2023-10-30 11:56

本说明书公开了一种模型训练的方法、装置、存储介质及电子设备，所述方法包括：确定各用户的风控信息，作为各无标注样本。再确定各用户分别对应的原始策略，以及根据待训练的策略推荐模型，确定各用户对各类风控策略的评价得分。之后，根据各用户对应的评价得分，确定对各用户对应的原始策略进行调整后得到的调整策略。再根据各调整策略，对各用户进行测试性风控，以确定各无标注样本对应的标注。根据各无标注样本以及各无标注样本对应的标注，对待训练的策略推荐模型进行训练。使得可以根据获取到的其他类型的样本训练待训练的策略推荐模型，以使训练完成的策略推荐模型可以在应用过程中，给出更加公平和准确的风控策略。给出更加公平和准确的风控策略。给出更加公平和准确的风控策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练的方法、装置、存储介质及电子设备

[0001]本说明书涉及计算机
，尤其涉及一种模型训练的方法、装置、存储介质及电子设备。

技术介绍

[0002]随着科技的发展，市场划分的越来越细致，出现很多为用户执行业务提供支持的服务提供方，例如，提供支付功能的服务提供方。同时，隐私数据的安全也受到了广泛的关注。
[0003]目前，服务提供方在为用户提供服务时，需要确定用户是否存在风险。当用户存在风险或者可能存在风险时，服务提供方可以生成风控策略，并根据该风控策略对用户进行风险控制。比如，当用户存在风险时，服务提供方可以限制用户每日使用该服务提供方提供的支付工具进行交易的数量。通常上，服务提供方可以通过预先训练的模型，生成对用户进行风险控制的风控策略。
[0004]但是，训练模型的样本数据是从目前已有的策略生成体系获取到的数据，而不是随机生成的数据，故该数据的数据分布可能不均匀，导致训练完成的模型在应用过程中生成的风控策略偏向于某一类风控策略，无法生成公正的风控策略，从而使得生成的风控策略不准确。比如样本数据可以是从服务提供方基于人工经验生成风控策略的策略生成体系获得的数据，该数据中有很多标注为风控策略A，对于风控策略B和风控策略C的标注很少，甚至不存在风控策略B和风控策略C的标注。故基于该数据对模型进行训练，使得训练完成的模型在应用过程中生成的风控策略偏向于风控策略A，导致生成的风控策略不公正。因此，如何训练模型以生成对用户进行风险控制的风控策略是一个重要的问题。
[0005]基于此，本...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法，包括：确定各用户的风控信息，并作为各无标注样本，其中，所述风控信息至少包括风险等级以及历史风控信息，所述历史风控信息至少包括历史上对所述各用户进行风险控制的风控策略以及对所述各用户进行风险控制后所述各用户的后续行为；针对每一个用户，确定对该用户进行风险控制的原始策略，以及，将该用户的风控信息输入待训练的策略推荐模型，获得所述待训练的策略推荐模型输出的该用户对各类风控策略的评价得分；根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整后得到的调整策略；根据各调整策略，对所述各用户进行测试性风控，以确定所述各无标注样本对应的标注；根据所述各无标注样本以及所述各无标注样本对应的标注，对所述待训练的策略推荐模型进行训练。2.如权利要求1所述的方法，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整后得到的调整策略，具体包括：在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价；确定在所述总代价最小时所述各用户对应的调整策略。3.如权利要求2所述的方法，在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价，具体包括：在满足所述各用户对应的调整策略的评价率大于指定评价数值的指定约束条件下，根据所述各用户对应的评价得分，将所述各用户对应的原始策略的评价率减所述各用户对应的调整策略的评价率的差值作为总代价，其中，所述评价率为所述各用户对应的风控策略中评价得分大于第二阈值的风控策略的概率。4.如权利要求2所述的方法，在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价，具体包括：确定所述各用户分别对应的各类风控策略的概率；在满足所述各用户对应的原始策略与所述各用户对应的调整策略之间的概率差值小于第一阈值的指定约束条件下，根据所述各用户对应的评价得分，确定所述各用户对应的原始策略的评价率减所述各用户对应的调整策略的评价率的差值，作为评价差值，以及，根据所述各用户分别对应的各类风控策略的概率，确定所述各用户对应的原始策略与所述各用户对应的调整策略之间的概率差值，其中，所述评价率为所述各用户对应的风控策略中评价得分大于第二阈值的风控策略的概率；将所述评价差值以及各概率差值的和作为总代价。5.如权利要求2所述的方法，在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价，具体包括：
在满足对所述各用户对应的原始策略进行调整的调整比例小于指定数值的指定约束条件下，确定对所述各用户对应的原始策略进行调整的调整比例，以及，根据所述各用户分别对应的各类风控策略的评价得分，确定所述各用户对应的原始策略的评价率减所述各用户对应的调整策略的评价率的差值，作为评价差值，其中，所述评价率为所述各用户对应的风控策略中评价得分大于第二阈值的风控策略的概率；将所述评价差值以及调整比例的和作为总代价。6.如权利要求2所述的方法，在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价，具体包括：在满足所述各用户对应的调整策略中各类风控策略的比例大于指定类别阈值的指定约束条件下，根据所述各用户分别对应的各类风控策略的评价得分，确定所述各用户对应的原始策略的评价率减所述各用户对应的调整策略的评价率的差值作为总代价。7.如权利要求2所述的方法，所述评价得分包括风险得分；在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价，具体包括：在满足所述各用户对应的调整策略的风险率小于第一数值的指定约束条件下，根据所述各用户分别对应的各类风控策略的风险得分，将所述各用户对应的调整策略的风险率减所述各用户对应的原始策略的风险率的差值作为总代价，其中，所述风险率为所述各用户对应的风控策略中风险得分大于指定风险分数的风控策略的概率。8.如权利要求2所述的方法，所述评价得分包括申诉得分；在满足指定约束条件下，根据所述各用户对应的评价得分以及所述各用户对应的原始策略，确定对所述各用户对应的原始策略进行调整的总代价，具体包括：在满足所述各用户对应的调整策略的申诉率小于第二数值的指定约束条件下，根据所述各用户分别对应的各类风控策略的申诉得分，将所述各用户对应的调整策略的申诉率减所述各用户对应的原始策略的申诉率的差值作为总代价，其中，所述申诉率为所述各用户对应的风控策略中申诉得分大于指定申诉分数的风控策略的概率。9.如权利要求1所述的方法，根据各调整策略，对所述各用户进行测试性风控，以确定所述各无标注样本对应的标注，具体包括：采用各调整策略，对所述各用户进行测试性风控；当获取到对所述各用户进行风险控制后所述各用户的后续行为时，根据获取到的各后续行为，确定所述各无标注样本对应的标注。10.如权利要求1所述的方法，所述待训练的策略推荐模型为经过预训练的模型；采用下述方式对所述待训练的策略推荐模型进行预训练：获取历史上用户的风控信息；将指定时间内的所述用户的风控信息，作为有标注样本；确定在所述指定时间后所述用户的后续行为；根据所述后续行为，确定所述有标注样本对应的标注；将所述有标注样本输入所述待训练的策略推荐模型，得到各风控策略的预测得分；以所述预测得分与所述标注之间的差异最小为训练目标，对所述待训练的策略推荐模
型进行预训练。11.如权利要求1所述的方法，所述方法还...

【专利技术属性】
技术研发人员：李佳霓，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人