模型校准方法及装置制造方法及图纸

技术编号:21659613 阅读:24 留言:0更新日期:2019-07-20 05:51
本说明书一个或多个实施例公开了一种模型校准方法及装置,用以实现模型自动化校准及提高模型校准的精确度。所述方法包括:获取初始模型对应的更新模型;及,获取对所述更新模型进行校准的验证集;所述验证集包括多个样本数据;将各所述样本数据输入所述更新模型,以得到所述验证集对应的输出集;所述输出集中包括各所述样本数据分别对应的预测值;根据指定分割点搜索算法,从各所述预测值中搜索X个分割点;及,利用各所述分割点将所述输出集划分为多个分段区间;所述X的取值小于所述预测值的数量;根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果。

Model Calibration Method and Device

【技术实现步骤摘要】
模型校准方法及装置
本说明书涉及数据处理
,尤其涉及一种模型校准方法及装置。
技术介绍
随着大数据分析和机器学习理论的发展,越来越多的企业在业务发展中利用机器学习技术构建算法模型,用于业务场景中的分析和预测。尤其是在风控场景中,各类机器学习、深度学习等算法逐渐普及,大大提升了各类业务中的风控效果。风控模型的输出分数,通常需要反应真实的业务风险浓度或风险概率。一般模型在上线后,会根据历史数据分析和业务要求,设定特定的模型分数阈值,进行风险拦截或释放。例如,在信贷申请业务中使用的准入评分卡模型,利用历史数据得到模型分数在不同分段上的历史表现(如逾期率等指标),然后根据业务的预期和容忍度设定准入的模型分数值,当用户申请贷款时,如果准入模型分数高于该给定阈值,则认为无风险,业务申请通过;如果低于该阈值,则认为有风险,拒绝业务申请。风控模型的这种使用方式使得模型输出分数不仅需要具备良好的好坏区分度和排序性,还需要模型在不同的分数取值上具有精确的业务含义。然而,各类业务场景中面临的风险形势,通常具有一定的时效性,且由于风险攻防的对抗性,导致风险形势在不断的变化迁移。风险业务的这一特点,也决定了风控模型需要经常进行迭代更新,而频繁的模型更新则会给风险运营人员带来更大的工作量,也容易引发策略调整的操作风险。因而,风控模型的每一次迭代更新,都需要对输出分数进行校准,以满足给定模型分数下的业务含义不变的要求。如何进行风控模型的分数校准,是风险管理中十分重要且具有挑战性的问题。
技术实现思路
本说明书一个或多个实施例的目的是提供一种模型校准方法及装置,用以实现模型自动化校准及提高模型校准的精确度。为解决上述技术问题,本说明书一个或多个实施例是这样实现的:一方面,本说明书一个或多个实施例提供一种模型校准方法,包括:获取初始模型对应的更新模型;及,获取对所述更新模型进行校准的验证集;所述验证集包括多个样本数据;将各所述样本数据输入所述更新模型,以得到所述验证集对应的输出集;所述输出集中包括各所述样本数据分别对应的预测值;根据指定分割点搜索算法,从各所述预测值中搜索X个分割点;及,利用各所述分割点将所述输出集划分为多个分段区间;所述X的取值小于所述预测值的数量;根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果;所述校准结果用于对落入所述分段区间内的所述预测值进行校准。在一个实施例中,所述获取初始模型对应的更新模型,包括:按照预设切分规则对采集到的多个历史数据进行切分,得到多个数据切片;其中,所述预设切分规则包括按照数据采集时间的先后顺序进行切分的规则;从所述多个数据切片中选择至少一个第一数据切片作为所述初始模型的训练集;利用所述训练集对所述初始模型进行更新,得到所述更新模型。在一个实施例中,所述获取对所述更新模型进行校准的验证集,包括:从所述多个数据切片中选择至少一个第二数据切片作为所述验证集;其中,所述第二数据切片与所述第一数据切片不同。在一个实施例中,所述指定分割点搜索算法包括最优分割点贪心搜索算法。在一个实施例中,所述根据指定分割点搜索算法,从各所述预测值中搜索N个分割点,包括:根据各所述预测值由大到小的顺序对各所述预测值进行排序,得到有序的各所述预测值;循环执行以下步骤,直至所述X个分割点均被搜索到:从有序的各所述预测值中选择所述预测值最大、且未被搜索为所述分割点的第一预测值;确定所述更新模型在所述第一预测值对应的第一区间内的第一分布值;及,计算所述第一分布值和所述初始模型在所述第一区间内的指标分布之间的第一误差;从有序的各所述预测值中选择与所述第一预测值相邻的、小于所述第一预测值的第二预测值;确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值;及,计算所述第二分布值和所述初始模型在所述第二区间内的指标分布之间的第二误差;确定所述第一误差和所述第二误差中的较小误差所对应的预测值为所述分割点。在一个实施例中,当搜索到第X个所述分割点时,所述第一区间包括由所述第一预测值与距离所述第一预测值最近的所述分割点构成的区间及由所述第一预测值与预设区间最小值构成的区间;所述第二区间包括由所述第二预测值与距离所述第二预测值最近的所述分割点构成的区间及由所述第二预测值与预设区间最小值构成的区间;当搜索到第Y个所述分割点时,所述第一区间为由所述第一预测值与距离所述第一预测值最近的所述分割点构成的区间;所述第二区间为由所述第二预测值与距离所述第二预测值最近的所述分割点构成的区间;其中,Y<X。在一个实施例中,所述根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果,包括:计算各所述分段区间内的所述预测值的评估均值;建立各所述评估均值及各所述指标分布之间的映射关系,得到多个指标点对;将各所述指标点对作为指定拟合算法的输入数据,运行所述指定拟合算法,得到各所述分段区间分别对应的校准结果。在一个实施例中,所述指定拟合算法为保序回归算法。另一方面,本说明书一个或多个实施例提供一种模型校准装置,包括:获取模块,用于获取初始模型对应的更新模型;及,获取对所述更新模型进行校准的验证集;所述验证集包括多个样本数据;输入模块,用于将各所述样本数据输入所述更新模型,以得到所述验证集对应的输出集;所述输出集中包括各所述样本数据分别对应的预测值;搜索模块,用于根据指定分割点搜索算法,从各所述预测值中搜索X个分割点;及,利用各所述分割点将所述输出集划分为多个分段区间;所述X的取值小于所述预测值的数量;确定模块,用于根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果;所述校准结果用于对落入所述分段区间内的所述预测值进行校准。在一个实施例中,所述获取模块包括:切分单元,用于按照预设切分规则对采集到的多个历史数据进行切分,得到多个数据切片;其中,所述预设切分规则包括按照数据采集时间的先后顺序进行切分的规则;第一选择单元,用于从所述多个数据切片中选择至少一个第一数据切片作为所述初始模型的训练集;更新单元,用于利用所述训练集对所述初始模型进行更新,得到所述更新模型。在一个实施例中,所述获取模块包括:第二选择单元,用于从所述多个数据切片中选择至少一个第二数据切片作为所述验证集;其中,所述第二数据切片与所述第一数据切片不同。在一个实施例中,所述指定分割点搜索算法包括最优分割点贪心搜索算法。在一个实施例中,所述搜索模块包括:排序单元,用于根据各所述预测值由大到小的顺序对各所述预测值进行排序,得到有序的各所述预测值;执行单元,用于循环执行以下步骤,直至所述X个分割点均被搜索到:从有序的各所述预测值中选择所述预测值最大、且未被搜索为所述分割点的第一预测值;确定所述更新模型在所述第一预测值对应的第一区间内的第一分布值;及,计算所述第一分布值和所述初始模型在所述第一区间内的指标分布之间的第一误差;从有序的各所述预测值中选择与所述第一预测值相邻的、小于所述第一预测值的第二预测值;确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值;及,计算所述第二分布值和所述初始模型在所述第二区间内的指标本文档来自技高网...

【技术保护点】
1.一种模型校准方法,包括:获取初始模型对应的更新模型;及,获取对所述更新模型进行校准的验证集;所述验证集包括多个样本数据;将各所述样本数据输入所述更新模型,以得到所述验证集对应的输出集;所述输出集中包括各所述样本数据分别对应的预测值;根据指定分割点搜索算法,从各所述预测值中搜索X个分割点;及,利用各所述分割点将所述输出集划分为多个分段区间;所述X的取值小于所述预测值的数量;根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果;所述校准结果用于对落入所述分段区间内的所述预测值进行校准。

【技术特征摘要】
1.一种模型校准方法,包括:获取初始模型对应的更新模型;及,获取对所述更新模型进行校准的验证集;所述验证集包括多个样本数据;将各所述样本数据输入所述更新模型,以得到所述验证集对应的输出集;所述输出集中包括各所述样本数据分别对应的预测值;根据指定分割点搜索算法,从各所述预测值中搜索X个分割点;及,利用各所述分割点将所述输出集划分为多个分段区间;所述X的取值小于所述预测值的数量;根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果;所述校准结果用于对落入所述分段区间内的所述预测值进行校准。2.根据权利要求1所述的方法,所述获取初始模型对应的更新模型,包括:按照预设切分规则对采集到的多个历史数据进行切分,得到多个数据切片;其中,所述预设切分规则包括按照数据采集时间的先后顺序进行切分的规则;从所述多个数据切片中选择至少一个第一数据切片作为所述初始模型的训练集;利用所述训练集对所述初始模型进行更新,得到所述更新模型。3.根据权利要求2所述的方法,所述获取对所述更新模型进行校准的验证集,包括:从所述多个数据切片中选择至少一个第二数据切片作为所述验证集;其中,所述第二数据切片与所述第一数据切片不同。4.根据权利要求1所述的方法,所述指定分割点搜索算法包括最优分割点贪心搜索算法。5.根据权利要求4所述的方法,所述根据指定分割点搜索算法,从各所述预测值中搜索X个分割点,包括:根据各所述预测值由大到小的顺序对各所述预测值进行排序,得到有序的各所述预测值;循环执行以下步骤,直至所述X个分割点均被搜索到:从有序的各所述预测值中选择所述预测值最大、且未被搜索为所述分割点的第一预测值;确定所述更新模型在所述第一预测值对应的第一区间内的第一分布值;及,计算所述第一分布值和所述初始模型在所述第一区间内的指标分布之间的第一误差;从有序的各所述预测值中选择与所述第一预测值相邻的、小于所述第一预测值的第二预测值;确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值;及,计算所述第二分布值和所述初始模型在所述第二区间内的指标分布之间的第二误差;确定所述第一误差和所述第二误差中的较小误差所对应的预测值为所述分割点。6.根据权利要求5所述的方法,当搜索到第X个所述分割点时,所述第一区间包括由所述第一预测值与距离所述第一预测值最近的所述分割点构成的区间及由所述第一预测值与预设区间最小值构成的区间;所述第二区间包括由所述第二预测值与距离所述第二预测值最近的所述分割点构成的区间及由所述第二预测值与预设区间最小值构成的区间;当搜索到第Y个所述分割点时,所述第一区间为由所述第一预测值与距离所述第一预测值最近的所述分割点构成的区间;所述第二区间为由所述第二预测值与距离所述第二预测值最近的所述分割点构成的区间;其中,Y<X。7.根据权利要求1所述的方法,所述根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果,包括:计算各所述分段区间内的所述预测值的评估均值;建立各所述评估均值及各所述指标分布之间的映射关系,得到多个指标点对;将各所述指标点对作为指定拟合算法的输入数据,运行所述指定拟合算法,得到各所述分段区间分别对应的校准结果。8.根据权利要求7所述的方法,所述指定拟合算法为保序回归算法。9.一种模型校准装置,包括:获取模块,用于获取初始模型对应的更新模型;及,获取对所述更新模型进行校准的验证集;所述验证集包括多个样本数据;输入模块,用于将各所述样本数据输入所述更新模型,以得到所述验证集对应的输出集;所述输出集中包括各所述样本数据分别对应的预测值;搜索模块,用于根据指定分割点搜索算法,从各所述预测值中搜索X个分割点;及,利用各所述分割点将所述输出集划分为多个分段区间;所述X的取值小于所述预测值的数量;确定模块,用于根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布,确定各所述分段区间分别对应的校准结果;所述校准结果用于对落入所述分段区间内的所述预测值进行校准。10.根据权利要求9所述...

【专利技术属性】
技术研发人员:阮怀玉章鹏杨志雄
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1