一种高级建模的数据分析方法技术

技术编号:35817231 阅读:14 留言:0更新日期:2022-12-03 13:41
本发明专利技术公开了一种高级建模的数据分析方法,具体步骤如下:确定目标变量及建模目的;确定影响因子,收集历史数据,并进行数据清洗;确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选;如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果;将得到的因子范围内进行试生产,得到数值,并进行记录。本方法用于预测分析以及发现变量之间的线性或非线性关系,可根据输入、输出的类型不同而有选择型建模,同时对建模结果给出更加精准解释。时对建模结果给出更加精准解释。时对建模结果给出更加精准解释。

【技术实现步骤摘要】
一种高级建模的数据分析方法


[0001]本专利技术涉及高级建模
,具体为一种高级建模的数据分析方法。

技术介绍

[0002]高级建模,也称高阶建模、机器学习建模、深度学习建模,可以解决问题、揭示可能性并在不确定的环境中做出科学的决定。通过高级建模可以有效地应用统计结果,深入了解具体信息、制定长远计划并获得持续学习和改进的方法。高级建模有助于挖掘内在协同关系,无论目标是描述,预测,还是说明。
[0003]高级建模为回归分析提供了一系列更完善的方法;为探索方法、减少数据维度和建模、时间序列和分类数据的分析提供了更有效的多元工具。此外,高级建模还具有一系列处理前期常见数据问题的建模工具,纳入了大量高级算法,用于对杂乱的数据进行更好地建模。
[0004]高级建模,不仅可以快速、正确地完成建模,还可以轻松比较和对比使用不同方法构建的模型,通过可视化和交互式的报表,可以直观展示数据分析结果。现有的高级建模方法存在很多缺陷,具体为:1、功能单一,运用领域片面;2、在多个因子具有多重共线性时,建模结果不准确;3、当因子与响应之间的关系为非线性时,模型结果无法解释;4、响应为分类型变量时,传统建模方法无法进行预测;5、模型精准度不高,评价指标单一;为此提供了一种高级建模的数据分析方法。

技术实现思路

[0005]本专利技术的目的是针对现有技术的缺陷,提供一种高级建模的数据分析方法,以解决上述
技术介绍
提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种高级建模的数据分析方法,具体步骤如下:
[0007]步骤一、确定目标变量及建模目的;
[0008]步骤二、确定影响因子,收集历史数据,并进行数据清洗;
[0009]步骤三、确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选;
[0010]步骤四、如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;
[0011]步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果;
[0012]步骤六、在步骤五得到的因子范围内进行试生产,得到数值,并进行记录。
[0013]作为本专利技术的一种优选技术方案,所述步骤三中的随机森林方法是随机森林集成决策树,利用交叉验证法随机抽取一部分样本放入随机森林模型中进行建模、学习,剩下的样本进行验证。
[0014]作为本专利技术的一种优选技术方案,所述步骤四中利用随机森林方法集成决策树,每一棵决策树以信息熵为度量构造一颗熵值下降最快的方式,如集成5000棵树,则对5000次建模结果进行简单平均,从而得到对自然宽展的预测值。
[0015]作为本专利技术的一种优选技术方案,所述步骤五中在最佳因子组合的基础上,设定因子的参数的波动范围,利用模拟器进行范围模拟,查看响应的变化区间;根据区间的可接受程度,修改因子的波动范围。
[0016]本专利技术的有益效果是:本方法用于预测分析以及发现变量之间的线性或非线性关系,可根据输入、输出的类型不同而有选择型建模,同时对建模结果给出更加精准解释;其功能包括:多元线性回归、决策树、随机森林、神经网络、XGBoost、LightGBM、时间序列分析;
[0017]具体的优点如下:
[0018]1、在传统行业,很多输入对输出的解释可能是非线性的,但传统方法均为线性方式,本专利技术有效利用非线性模型,可以得到更准确预测结果;
[0019]2、针对多个因子的多重共线性,即多个因子之间有相互作用,本专利技术可以合理解释影响;
[0020]3、针对模型后的结果,本专利技术使用刻画器找到因子的设计空间,从而在试生产控制因子输入量,更具有指导意义;
[0021]4、使用传统建模方法与本专利技术方法针对大数据建模,传统方法完全失效,而采用本方法的设计空间进行试生产,CPK提高了80%。
附图说明
[0022]图1为本专利技术的流程图。
具体实施方式
[0023]下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易被本领域人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0024]一种高级建模的数据分析方法,具体步骤如下:
[0025]步骤一、确定目标变量及建模目的;
[0026]步骤二、确定影响因子,收集历史数据,并进行数据清洗;
[0027]步骤三、确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选,随机森林集成决策树,利用交叉验证法随机抽取一部分样本放入随机森林模型中进行建模、学习,剩下的样本进行验证,通过这种重复抽样的方式避免了大数据下基础模型的过拟合;这种方法相较于传统建模会更利于筛选出显著影响因子,尤其在因子个数比较多;对每个决策树模型计算特征重要性,最后在进行简单投票法,得到重要特征;
[0028]步骤四、如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法,利用随机森林方法集成决策树,每一棵决策树以信息熵为度量构造一颗熵值下降最快的方式,如集成5000棵树,则对5000次建模结果进行简单平均,从而得到对自然宽展的预测值;
[0029]步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行
生产能获得预期效果,在最佳因子组合的基础上,设定因子的参数的波动范围,利用模拟器进行范围模拟,查看响应的变化区间;根据区间的可接受程度,修改因子的波动范围;
[0030]步骤六、在步骤五得到的因子范围内进行试生产,得到数值,并进行记录。
[0031]实施例:下面结合热轧精轧的自然宽展实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。
[0032]宽度的尺寸精度是热轧产品质量的重要指标,高的宽度精度不仅可以提高产品的成材率,而且可以给热轧用户及后部工序创造良好的生产条件。以往文献针对精轧自然宽展模型进行了研究,并提出以神经网络为主的模型,其模型输入参数为带钢化学成分(碳、硅、锰
……
)、粗轧出口宽度、粗轧出口目标宽度、精轧出口宽度、精轧出口目标厚度、精轧出口目标温度、各机架的压下率等。但由于其模型结构过于复杂,在进行实际推广时非常困难,另外利用单一模型难以确定输入参数的范围。本专利技术很好解决预测精轧自然宽展、关键输入因子找出以及输入参数范围确定的问题。
[0033]步骤一、首先需要确定目标变量;自然宽展模型关注的因子为粗轧宽度;
[0034]步骤二、确定影响因子,收集历史数据,并进行数据清洗;
[0035]根据历史文献以及工人经验,挑选的因子为:带钢宽度、厚度、带钢的质量、硅含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高级建模的数据分析方法,其特征在于:具体步骤如下:步骤一、确定目标变量及建模目的;步骤二、确定影响因子,收集历史数据,并进行数据清洗;步骤三、确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选;步骤四、如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果;步骤六、在步骤五得到的因子范围内进行试生产,得到数值,并进行记录。2.根据权利要求1所述的一种高级建模的数据分析方法,其特征在于:所述步骤三中的随...

【专利技术属性】
技术研发人员:金丽伟
申请(专利权)人:上海普茅数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1