组合指标的甄选方法、装置、计算机设备及介质制造方法及图纸

技术编号:27289885 阅读:20 留言:0更新日期:2021-02-06 11:58
本发明专利技术涉及计算机技术领域,公开了一种组合指标的甄选方法、装置、计算机设备及介质,所述方法包括:获取每个周期的样本数据,并计算样本数据中每个指标对应的稳定度指标,将稳定度指标小于预设稳定阈值的指标作为稳定指标,根据预设的分类方式,对稳定指标进行模块归类,同时,根据归类结果,生成每个模块对应的训练数据表,分别将每个训练数据表中的数据输入到预测模型中进行模型训练,并根据得到的训练结果,确定每个训练数据表对应的AUC,根据AUC由大到小的顺序,对训练数据表对应的模块进行甄选,本发明专利技术提高了组合指标的甄选效率。本发明专利技术提高了组合指标的甄选效率。本发明专利技术提高了组合指标的甄选效率。

【技术实现步骤摘要】
组合指标的甄选方法、装置、计算机设备及介质


[0001]本专利技术涉及计算机
,尤其涉及一种组合指标的甄选方法、装置、计算机设备及介质。

技术介绍

[0002]随着人工智能技术的发展,依据现有数据中的特征进行机器学习建立相关模型已非常常见。在机器学习的研究过程中,建立机器学习模型的想法是基于一个建设性的反馈原则。构建一个模型,从指标中获得反馈,进行改进,直到达到理想的精度为止。评估指标解释了模型的性能。评估指标的一个重要方面是它们区分模型结果的能力。考虑不同种类的指标来评估我们的模型,指标的选择完全取决于模型的类型和模型的实现计划。
[0003]针对单个指标对模型的影响,当前一般用IV(Information Value),即信息价值,或者信息量,来进行评估。挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性和变量在业务上的可解释性等。但是,在一些复杂的预测模型中,涉及到较多重要指标,不同指标组合对模型评估具有较大影响,针对这种情况,当前采用对每种指标组合分别进行验证的方式,这种筛选方式效率较低,因而,亟需一种有效针对模型预测的组合指标的筛选方法。

技术实现思路

[0004]本专利技术实施例提供一种组合指标的甄选方法、装置、计算机设备和存储介质,以提高组合指标甄选的效率。
[0005]为了解决上述技术问题,本申请实施例提供一种组合指标的甄选方法,包括:
[0006]获取每个周期的样本数据,并计算所述样本数据中每个指标对应的稳定度指标,将所述稳定度指标小于预设稳定阈值的指标作为稳定指标;
[0007]根据预设的分类方式,对所述稳定指标进行模块归类,并根据归类结果,生成每个模块对应的训练数据表;
[0008]分别将每个所述训练数据表中的数据输入到预测模型中进行模型训练,并根据得到的训练结果,确定每个训练数据表对应的AUC;
[0009]根据所述AUC由大到小的顺序,对所述训练数据表对应的模块进行甄选。
[0010]可选地,所述计算所述样本数据中每个指标对应的稳定度指标,将所述稳定度指标小于预设稳定阈值的指标作为稳定指标包括:
[0011]获取任意两个连续周期的样本数据第一数据和第二数据,并计算所述第二数据相对所述第一数据的稳定度指标PSI;
[0012]从所述第二数据中,获取所述稳定度指标PSI小于预设稳定阈值的指标,作为稳定指标,并将所述稳定指标加入到稳定指标集。
[0013]可选地,所述计算所述第二数据相对所述第一数据的稳定度指标PSI包括:
[0014]分别对所述第一数据和所述第二数据进行分箱处理,得到分箱后的第一数据和分
箱后的第二数据,将分箱后的第一数据的每一箱,作为一个参考箱,将分箱后的第二数据的每一箱,作为一个增量箱;
[0015]针对任一指标,计算每一个参考箱中所述指标对应的样本数据在分箱后的第一数据中的比例,得到第一比例,计算每一个增量箱中所述指标对应的样本数据在分箱后的第二数据中的比例,作为第二比例;
[0016]针对每个第二比例,计算所述第二比例与所述第二比例对应的第一比例的差值,将所述差值的绝对值,作为所述第二比例对应的第二数据的稳定度指标PSI。
[0017]可选地,所述根据归类结果,生成每个模块对应的训练数据表,包括:
[0018]将hive表与每个周期的样本数据对应的数据表进行关联,其中,所述hive表为本地数据库中包含的数据表;
[0019]通过关联查询的方式,从每个周期的样本数据对应的数据表中抽取入模特征字段数据,从hive表中抽取标签数据,基于所述入模特征字段数据和所述标签数据,生成所述训练数据表。
[0020]可选地,所述分别将每个所述训练数据表中的数据输入到预测模型中进行模型训练包括:
[0021]基于所述训练数据表的属性数据,动态生成配置文件;
[0022]启动预设的评估脚本;
[0023]采用所述预设的评估脚本按照所述配置文件,依次进行每个模块对应的训练数据表的数据读取,并将读取到的数据输入到预测模型中进行模型训练。
[0024]可选地,所述预测模型为LightGBM决策树模型,所述根据得到的训练结果,确定每个训练数据表对应的AUC包括:
[0025]获取所述LightGBM决策树模型的训练结果中的预测值,根据所述预测值对所述训练数据表对应的模块进行预测打分,得到所述训练数据表对应模块的预测分值;
[0026]依据所述预测分值及所述训练数据表中的标签数据,确定所述训练数据表对应模块的AUC。
[0027]为了解决上述技术问题,本申请实施例还提供一种组合指标的甄选装置,包括:
[0028]获取模块,用于获取每个周期的样本数据,并计算所述样本数据中每个指标对应的稳定度指标,将所述稳定度指标小于预设稳定阈值的指标作为稳定指标;
[0029]归类模块,用于根据预设的分类方式,对所述稳定指标进行模块归类,并根据归类结果,生成每个模块对应的训练数据表;
[0030]训练模块,用于分别将每个所述训练数据表中的数据输入到预测模型中进行模型训练,并根据得到的训练结果,确定每个训练数据表对应的AUC;
[0031]甄选模块,用于根据所述AUC由大到小的顺序,对所述训练数据表对应的模块进行甄选。
[0032]可选地,所述获取模块包括:
[0033]稳定度指标计算单元,用于获取任意两个连续周期的样本数据第一数据和第二数据,并计算所述第二数据相对所述第一数据的稳定度指标PSI;
[0034]稳定指标集确定单元,用于从所述第二数据中,获取所述稳定度指标PSI小于预设稳定阈值的指标,作为稳定指标,并将所述稳定指标加入到稳定指标集。
[0035]可选地,所述稳定度指标计算单元包括:
[0036]分箱子单元,用于分别对所述第一数据和所述第二数据进行分箱处理,得到分箱后的第一数据和分箱后的第二数据,将分箱后的第一数据的每一箱,作为一个参考箱,将分箱后的第二数据的每一箱,作为一个增量箱;
[0037]比例计算子单元,用于针对任一指标,计算每一个参考箱中所述指标对应的样本数据在分箱后的第一数据中的比例,得到第一比例,计算每一个增量箱中所述指标对应的样本数据在分箱后的第二数据中的比例,作为第二比例;
[0038]稳定度指标确定子单元,用于针对每个第二比例,计算所述第二比例与所述第二比例对应的第一比例的差值,将所述差值的绝对值,作为所述第二比例对应的第二数据的稳定度指标PSI。
[0039]可选地,所述归类模块包括:
[0040]关联单元,用于将hive表与每个周期的样本数据对应的数据表进行关联,其中,所述hive表为本地数据库中包含的数据表;
[0041]查询单元,用于通过关联查询的方式,从每个周期的样本数据对应的数据表中抽取入模特征字段数据,从hive表中抽取标签数据,基于所述入模特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种组合指标的甄选方法,其特征在于,包括:获取每个周期的样本数据,并计算所述样本数据中每个指标对应的稳定度指标,将所述稳定度指标小于预设稳定阈值的指标作为稳定指标;根据预设的分类方式,对所述稳定指标进行模块归类,并根据归类结果,生成每个模块对应的训练数据表;分别将每个所述训练数据表中的数据输入到预测模型中进行模型训练,并根据得到的训练结果,确定每个训练数据表对应的AUC;根据所述AUC由大到小的顺序,对所述训练数据表对应的模块进行甄选。2.如权利要求1所述的组合指标的甄选方法,其特征在于,所述计算所述样本数据中每个指标对应的稳定度指标,将所述稳定度指标小于预设稳定阈值的指标作为稳定指标包括:获取任意两个连续周期的样本数据第一数据和第二数据,并计算所述第二数据相对所述第一数据的稳定度指标PSI;从所述第二数据中,获取所述稳定度指标PSI小于预设稳定阈值的指标,作为稳定指标,并将所述稳定指标加入到稳定指标集。3.如权利要求2所述的组合指标的甄选方法,其特征在于,所述计算所述第二数据相对所述第一数据的稳定度指标PSI包括:分别对所述第一数据和所述第二数据进行分箱处理,得到分箱后的第一数据和分箱后的第二数据,将分箱后的第一数据的每一箱,作为一个参考箱,将分箱后的第二数据的每一箱,作为一个增量箱;针对任一指标,计算每一个参考箱中所述指标对应的样本数据在分箱后的第一数据中的比例,得到第一比例,计算每一个增量箱中所述指标对应的样本数据在分箱后的第二数据中的比例,作为第二比例;针对每个第二比例,计算所述第二比例与所述第二比例对应的第一比例的差值,将所述差值的绝对值,作为所述第二比例对应的第二数据的稳定度指标PSI。4.如权利要求1所述的组合指标的甄选方法,其特征在于,所述根据归类结果,生成每个模块对应的训练数据表,包括:将hive表与每个周期的样本数据对应的数据表进行关联,其中,所述hive表为本地数据库中包含的数据表;通过关联查询的方式,从每个周期的样本数据对应的数据表中抽取入模特征字段数据,从hive表中抽取标签数据,基于所述入模特征字段数据和所述标签数据,生成所述训练数据表。5.如权利要求1所述的组合指标的甄选方法,其特征在于,所述分别...

【专利技术属性】
技术研发人员:陈远波
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1