一种交互式迭代建模方法技术

技术编号:36694000 阅读:14 留言:0更新日期:2023-02-27 20:04
本发明专利技术提供了一种交互式迭代建模方法,包括:S1:获取原始数据;S2:获得建模数据;S3:对建模数据进行特征衍生和样本筛选,获得样本筛选后的建模数据;S4:基于用户输入的筛选指令对样本筛选后的建模数据的特征进行人为筛选,获得第一特征组合;S5:对第一特征组合进行自动化特征筛选,获得第二特征组合,并获得最终特征组合;S6:确定出初始模型的超参数;S7至S8:对超参数进行参数自动化调优,基于新的模型参数和最终特征组合进行模型建立和进行迭代训练,获得最终建模结果;用以基于用户在迭代建模过程中输入的指令对迭代建模过程进行干预,提高迭代建模的效率。提高迭代建模的效率。提高迭代建模的效率。

【技术实现步骤摘要】
一种交互式迭代建模方法


[0001]本专利技术涉及迭代建模
,特别涉及一种交互式迭代建模方法。

技术介绍

[0002]目前,行业中常见的模型迭代方案为:训练完一个模型后,若模型效果没有达到预期,此时需要进行模型迭代调优,可以沿用或者新启项目进行模型迭代。
[0003]但是,常见的模型训练平台在进行迭代调优时,通常仅有常见的超参优化与变量选择,特征衍生方式简单甚至没有特征衍生方式,自动化调优策略单一,粗糙且内置于算法内部,操作人员的可干预程度小。且在对模型进行深入的调整与调优时,通常需要通过写代码的方式完成,需要较高的代码能力。而且也会导致最终完成的模型的过程呈现出黑匣子的状态,模型的理解性差,影响模型的落地应用。
[0004]因此,现存的常见的模型训练平台存在以下问题:
[0005]人与机器交互性、可控性、交互性、可解释性差;
[0006]每次迭代模型更像是在独立完成一个新的模型,迭代延续性差,开发时间长,增加建模人员的时间成本,导致模型开发效率低:
[0007]建模人员进行人为干预时,往往需要熟练掌握模型开发代码的能力,对编程能力要求较高,上手难。
[0008]因此,本专利技术提出了一种交互式迭代建模方法。

技术实现思路

[0009]本专利技术提供一种交互式迭代建模方法,用以基于用户在迭代建模过程中输入的指令对迭代建模过程进行干预,提高迭代建模的效率,使得模型开发过程是可把控、可理解、可干预的,可以不断地基于现有模型进行快速优化迭代,使得每一次模型训练不再独立,而是变成一种迭代过程,从而提高了训练模型的效率,无需较高的编程能力即可实现在更短的时间内训练出更好的模型。
[0010]本专利技术提供一种交互式迭代建模方法,包括:
[0011]S1:基于迭代要求确定数据规模,基于数据规模从对应数据来源获取原始数据;
[0012]S2:对原始数据进行数据预处理,获得建模数据;
[0013]S3:对最新获得的建模数据进行特征衍生,获得衍生后的建模数据,并通过设定过滤规则对衍生后的建模数据进行样本筛选,获得样本筛选后的建模数据;
[0014]S4:基于用户输入的筛选指令对样本筛选后的建模数据的特征进行人为筛选,获得第一特征组合;
[0015]S5:基于机器学习算法对第一特征组合进行自动化特征筛选,获得第二特征组合,并由用户判断第二特征组合是否满足要求,若是,则将第二特征组合作为最终特征组合,否则,基于新的自动化筛选机制对应的机器学习算法返回执行S4至S5,直至最新获得的第二特征组合满足要求时,则将最新获得的第二特征组合作为最终特征组合;
[0016]S6:确定出初始模型的超参数;
[0017]S7:基于用户输入的判断指令,判断出初始模型的超参数是否满足要求,若是,则基于超参数获得初始模型,否则,对超参数进行参数自动化调优,获得新的模型参数,基于新的模型参数和最终特征组合进行模型建立,获得本次训练过程的模型和模型报告;
[0018]S8:基于模型报告判断出本次训练获得的模型是否满足要求,若是,则将本次训练获得的模型作为最终建模结果,否则,基于新的设定过滤规则返回执行S3至S7,直至最新训练过程获得的模型满足要求时,则将最新训练过程获得的模型作为最终建模结果。
[0019]优选的,所述的一种交互式迭代建模方法,S1:基于迭代要求确定数据规模,基于数据规模从对应数据来源获取原始数据,包括:
[0020]S101:基于迭代要求确定置信区间、可容忍误差和标准差值;
[0021]S102:基于置信区间、可容忍误差和标准差值,计算出数据规模;
[0022]S103:基于数据规模从对应数据来源获取原始数据。
[0023]优选的,所述的一种交互式迭代建模方法,S2:对原始数据进行数据预处理,获得建模数据,包括:
[0024]S201:对原始数据进行数据清理,获得第一处理数据;
[0025]S202:对第一处理数据进行数据变换,获得第二处理数据;
[0026]S203:对第二处理数据进行数据压缩,获得建模数据。
[0027]优选的,所述的一种交互式迭代建模方法,S201:对原始数据进行数据清理,获得第一处理数据,包括:
[0028]对原始数据进行缺失值补充,获得完整数据;
[0029]对完整数据进行光滑去噪,获得去噪数据;
[0030]将去噪数据中的离群点和重复数据删除,获得第一处理数据。
[0031]优选的,所述的一种交互式迭代建模方法,S202:对第一处理数据进行数据变换,获得第二处理数据,包括:
[0032]对第一处理数据进行数据平滑、数据聚集、数据概化和规范化,获得第二处理数据。
[0033]优选的,所述的一种交互式迭代建模方法,S203:对第二处理数据进行数据压缩,获得建模数据,包括:
[0034]确定出第二处理数据的目标存储变量类型;
[0035]基于目标变量存储类型,对第二处理数据进行压缩处理,获得建模数据。
[0036]优选的,所述的一种交互式迭代建模方法,S3:对最新获得的建模数据进行特征衍生,获得衍生后的建模数据,并通过设定过滤规则对衍生后的建模数据进行样本筛选,获得样本筛选后的建模数据,包括:
[0037]基于建模人员输入的选择指令确定出对应的特征衍生逻辑,基于特征衍生逻辑确定出第一特征衍生规则,基于第一特征衍生规则对建模数据进行特征衍生,获得第一衍生数据;
[0038]对建模数据进行分类,获得分类字段和每个分类字段的分类数据集,将所有分类字段汇总获得分类字段集群,将分类字段集群与预设分类字段集群库中的每个预设分类字段集群进行匹配,并确定出对应的匹配度,将最大匹配度对应的预设分类字段集群的字段
维度衍生方式当作当前维度衍生方式,基于当前维度衍生方式对分类字段进行分类维度衍生,获得衍生特征维度;
[0039]基于衍生特征维度对应的当前维度衍生方式,确定出被衍生分类字段和维度衍生逻辑;
[0040]确定出每个分类数据集的自变量,基于预设区间数在自变量维度对分类数据集进行等区间离散化,获得预设区间数个区间数据,将每个分类数据集包含的所有区间数据汇总,获得对应分类字段的离散分类数据集;
[0041]基于维度衍生逻辑,对对应被衍生分类字段的离散分类数据集进行交叉衍生,获得第二衍生数据;
[0042]将第一衍生数据和第二衍生数据以及建模数据进行汇总,获得衍生后的建模数据;
[0043]并通过设定过滤规则对衍生后的建模数据进行样本筛选,获得样本筛选后的建模数据。
[0044]优选的,所述的一种交互式迭代建模方法,基于维度衍生逻辑,对对应被衍生分类字段的离散分类数据集进行交叉衍生,获得第二衍生数据,包括:
[0045]计算出离散分类数据集中每个区间数据的卡方值,将每个被衍生分类字段的离散分类数据集中包含的小于卡方值阈值的卡方值从小本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互式迭代建模方法,其特征在于,包括:S1:基于迭代要求确定数据规模,基于数据规模从对应数据来源获取原始数据;S2:对原始数据进行数据预处理,获得建模数据;S3:对最新获得的建模数据进行特征衍生,获得衍生后的建模数据,并通过设定过滤规则对衍生后的建模数据进行样本筛选,获得样本筛选后的建模数据;S4:基于用户输入的筛选指令对样本筛选后的建模数据的特征进行人为筛选,获得第一特征组合;S5:基于机器学习算法对第一特征组合进行自动化特征筛选,获得第二特征组合,并由用户判断第二特征组合是否满足要求,若是,则将第二特征组合作为最终特征组合,否则,基于新的自动化筛选机制对应的机器学习算法返回执行S4至S5,直至最新获得的第二特征组合满足要求时,则将最新获得的第二特征组合作为最终特征组合;S6:确定出初始模型的超参数;S7:基于用户输入的判断指令,判断出初始模型的超参数是否满足要求,若是,则基于超参数获得初始模型,否则,对超参数进行参数自动化调优,获得新的模型参数,基于新的模型参数和最终特征组合进行模型建立,获得本次训练过程的模型和模型报告;S8:基于模型报告判断出本次训练获得的模型是否满足要求,若是,则将本次训练获得的模型作为最终建模结果,否则,基于新的设定过滤规则返回执行S3至S7,直至最新训练过程获得的模型满足要求时,则将最新训练过程获得的模型作为最终建模结果。2.根据权利要求1所述的一种交互式迭代建模方法,其特征在于,S1:基于迭代要求确定数据规模,基于数据规模从对应数据来源获取原始数据,包括:S101:基于迭代要求确定置信区间、可容忍误差和标准差值;S102:基于置信区间、可容忍误差和标准差值,计算出数据规模;S103:基于数据规模从对应数据来源获取原始数据。3.根据权利要求1所述的一种交互式迭代建模方法,其特征在于,S2:对原始数据进行数据预处理,获得建模数据,包括:S201:对原始数据进行数据清理,获得第一处理数据;S202:对第一处理数据进行数据变换,获得第二处理数据;S203:对第二处理数据进行数据压缩,获得建模数据。4.根据权利要求3所述的一种交互式迭代建模方法,其特征在于,S201:对原始数据进行数据清理,获得第一处理数据,包括:对原始数据进行缺失值补充,获得完整数据;对完整数据进行光滑去噪,获得去噪数据;将去噪数据中的离群点和重复数据删除,获得第一处理数据。5.根据权利要求3所述的一种交互式迭代建模方法,其特征在于,S202:对第一处理数据进行数据变换,获得第二处理数据,包括:对第一处理数据进行数据平滑、数据聚集、数据概化和规范化,获得第二处理数据。6.根据权利要求3所述的一种交互式迭代建模方法,其特征在于,S203:对第二处理数据进行数据压缩,获得建模数据,包括:确定出第二处理数据的目标存储变量类型;
基于目标变量存储类型,对第二处理数据进行压缩处理,获得建模数据。7.根据权利要求1所述的一种交互式迭代建模方法,其特征在于,S3:对最新获得的建模数据进行特征衍生,获得衍生后的建模数据,并通过设定过滤规则对衍生后的建模数据进行...

【专利技术属性】
技术研发人员:柴磊许靖李永辉徐乐陈茜
申请(专利权)人:深圳市魔数智擎人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1