【技术实现步骤摘要】
一种模型效能的波动识别方法及装置
本文件涉及大数据
,尤其涉及一种模型效能的波动识别方法及装置。
技术介绍
目前,随着大数据、人工智能的快速发展,在大数据时代下,机器学习模型在业务中发挥着非常大的作用,其中,基于收集到的历史样本数据对模型参数进行训练,得到训练好的机器学习模型;当模型训练完毕后,将训练好的机器学习模型部署上线,并利用训练好的机器学习模型对当前收集的线上业务数据进行预测。然而,由于机器学习模型一旦训练完毕,其模型参数便已经固定,如果实际应用中的线上业务数据或者业务场景发生变化,那么,可能对模型的应用效果产生巨大的影响,因此,在实际业务中,模型效能监控十分重要。当前,针对模型效能的监控过程,通常在基于模型预测结果,获得实际业务表现反馈数据之后,即经过一段时间的实际业务表现数据收集之后,基于模型训练时模型指标的特征值与基于实际业务表现反馈数据得到的模型指标的特征值进行比对,来确定模型效能,例如,该模型指标可以是分类模型的评价指标auc、ks等。其中,针对特定的模型应用场景,模型的应用效能需要比较长的业务表现周期才能获取到,例如,以信贷违约识别的应用场景为例,先利用训练好的模型基于信贷申请用户的线上业务数据进行违约行为预测,针对放行的信贷申请用户还需要监测其一段时间内的履约行为数据,才能确定该用户是否存在违约行为,再基于该履约行为数据确定模型效能,然而,如果在此过程中,模型的效能大幅下滑,将产生一定程度的业务损失,且由于业务损失已发生则无法补救,因此,可能存在因模型效能的波动导致不必要的业务损失 ...
【技术保护点】
1.一种模型效能的波动识别方法,包括:/n获取目标模型的训练样本数据和预测业务数据;/n基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值;以及,/n基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值;以及,/n基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值;/n根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。/n
【技术特征摘要】
1.一种模型效能的波动识别方法,包括:
获取目标模型的训练样本数据和预测业务数据;
基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值;以及,
基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值;以及,
基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值;
根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据。
2.根据权利要求1所述的方法,其中,所述基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值,包括:
基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征的模型训练参与数据;
针对每个所述预设数据特征,根据所述模型训练参与数据,确定该预设数据特征对所述目标模型的重要性评价变量的变量数值。
3.根据权利要求1所述的方法,其中,所述基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值,包括:
针对每个所述预设数据特征,基于所述训练样本数据,确定该预设数据特征的样本分类贡献数据,其中,所述样本分类贡献数据用于表征特征对黑样本和白样本的区分能力;
根据所述样本分类识别贡献数据,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值。
4.根据权利要求1所述的方法,其中,所述基于所述预测业务数据和所述训练样本数据,对各预测数据特征的特征分布差异进行识别,确定各所述预设数据特征的稳定性评价变量的变量数值,包括:
针对每个所述预设数据特征,对该预设数据特征的特征值范围进行等宽或等频划分处理,得到多个数据特征区间;
基于所述预测业务数据,确定各所述数据特征区间下的预测数据分布占比;
基于所述训练样本数据,确定各所述数据特征区间下的样本数据分布占比;
根据各所述数据特征区间对应的所述预测数据分布占比和所述样本数据分布占比,确定所述预设数据特征的稳定性评价变量的变量数值。
5.根据权利要求1所述的方法,其中,所述根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据,包括:
根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值,确定所述预设数据特征的特征贡献程度;
根据所述特征贡献程度,确定所述预设数据特征对所述目标模型的模型效能变化影响的特征权重系数;
根据各所述预设数据特征的所述稳定性评价变量的变量数值、以及对应的所述特征权重系数,确定所述目标模型的模型效能波动数据。
6.根据权利要求5所述的方法,其中,所述根据所述特征贡献程度,确定所述预设数据特征对所述目标模型的模型效能变化影响的特征权重系数,包括:
根据各所述预设数据特征的所述特征贡献程度,确定多个所述预设数据特征的平均贡献程度;
根据各所述预设数据特征的所述特征贡献程度、以及所述平均贡献程度,确定所述预设数据特征对所述目标模型的标准化贡献程度;
根据所述标准化贡献程度,确定所述预设数据特征对所述目标模型的模型效能变化影响的特征权重系数。
7.根据权利要求5所述的方法,其中,所述根据各所述预设数据特征的所述稳定性评价变量的变量数值、以及对应的所述特征权重系数,确定所述目标模型的模型效能波动数据,包括:
基于所述特征权重系数,对各所述预设数据特征的所述稳定性评价变量的变量数值进行加权求和,得到所述目标模型的模型效能波动数据。
8.根据权利要求1所述的方法,其中,若所述目标模型包括:二分类模型;
所述基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的预测能力影响变量的变量数值,包括:
基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据特征对所述目标模型的信息价值指标IV的变量数值。
9.根据权利要求1至8任一项所述的方法,其中,在根据所述预测能力影响变量的变量数值、所述重要性评价变量的变量数值、以及所述稳定性评价变量的变量数值,确定所述目标模型的模型效能波动数据之后,还包括:
判断所述模型效能波动数据是否满足预设效能波动条件;
若否,则对所述目标模型进行模型参数优化,直到所述目标模型的模型效能波动数据满足预设效能波动条件。
10.一种模型效能的波动识别装置,包括:
数据获取模块,其获取目标模型的训练样本数据和预测业务数据;
第一确定模块,其基于所述训练样本数据,对所述目标模型进行模型参数训练,确定各预设数据特征对所述目标模型的重要性评价变量的变量数值;
第二确定模块,其基于所述训练样本数据,对各预设数据特征的样本标签区分能力进行识别,确定所述预设数据...
【专利技术属性】
技术研发人员:纪忠光,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。