一种基于倾向性异质装袋算法的钢材质量预测方法技术

技术编号:24037048 阅读:20 留言:0更新日期:2020-05-07 02:12
本发明专利技术提供一种基于倾向性异质装袋算法的钢材质量预测方法,属于钢材自动生产技术领域,包括如下步骤:S1:数据预处理;S2:特征提取;得到具有主成分特征的数据集;S3:对数据进行分类;部分作为训练样本集,部分作为测试样本集;S4:构建基于Bagging的集成学习模型;S5:利用训练样本集对步骤S3中构建的集成学习模型进行训练;利用测试样本集对步骤S4中构建的集成学习模型进行测试;S6:使用步骤S5得到的集成学习模型对钢材生产过程中的数据分类,得到分类结果,根据分类结果预测钢材质量。本发明专利技术提供的上述预测方法,对钢材生产中采集到的数据进行了特征分析和提取,并且通过对集成学习模型进行改进,提高了预测的准确率和预测稳定性。

A prediction method of steel quality based on tendentious heterogeneous bagging algorithm

【技术实现步骤摘要】
一种基于倾向性异质装袋算法的钢材质量预测方法
本专利技术涉及钢材自动生产
,尤其涉及一种基于倾向性异质装袋算法的钢材质量预测方法,用于根据钢材生产中采集的数据对钢材质量进行预测。
技术介绍
工业领域中累积了大量高冗余、高噪声、低精度、强耦合的数据,但通过数据清洗、特征提取以及选择适当的机器学习方法后,人们依然有望挖掘出数据中本质的规律。钢卷质量指标主要分为表面质量、力学性能、尺寸精度三个方面,其质量主要由成分、结构、制备工艺等因素决定,其中某个环节的改变都可能对最终钢材的质量产生巨大的影响。钢材生产的过程连续且繁杂,采集到的数据往往具有高冗余、高噪声、低精度、强耦合等特点,但通过数据清洗、特征提取以及挑选适当的机器学习方法后,人们依然有望挖掘出数据中本质的规律。集成学习是机器学习方法的一种,它通过结合各种分类器以实现更好的预测性能。换言之,集成学习方法首先预测一些初步的结果,然后将初步结果组合生成一个新的最终结果。研究表明,集成分类器通常比基础分类器表现得更好。集成学习主要算法分为Boosting,Bagging和Stacking。Bagging是使用不同数据集产生基础分类器的方法,每个基础分类器都有自己的训练集,通常使用随机抽取方法和替换产生不同训练集。在生成所有训练集之后为每个分类器构建模型。中国专利文献(CN103136638A钢材生产的自适应调整方法)公开了一种钢材生产的自适应调整方法,包括:选择钢材的规格和钢种,调用该规格和钢种的钢材的历史生产数据;从历史生产数据中获取第一数据组,第一数据组包括数个相连续的长周期,每一个长周期包括数个相连续的短周期,对每一个长周期中的每一个短周期进行编号,不同的长周期中的对应的短周期具有相关联的编号;基于第一数据组计算第一生产模型;选择指定时间点;从历史生产数据中获取第二数据组,该第二数据组包括指定时间点之前的数个相连续的短周期;基于第二数据组计算第二生产模型;根据第一生产模型和第二生产模型计算指定时间点的预测生产数据,根据预测生产数据对钢材的生产进行自适应调整。该专利技术提供的自适应调整方法虽然能够根据预测生产数据对钢材的生产进行自适应调整,但是其并未考虑到数据中的各个特征类别,而不同的数据对于钢材质量的影响是不同的。综上所述,在实际应用中,可以根据具体问题选择对应的算法。但是经仿真实验后发现,已有的钢材预测方法均不够完善,而现有基础算法和集成学习算法的分类准确率和模型稳定性均不够理想,均无法满足实际钢材生产应用的需求。
技术实现思路
为解决现有的钢材预测方法存在的上述缺陷,本专利技术在已有算法的基础上进行改进,以得到分类准确率、稳定性更好的模型,并将其用于钢材预测。同时考虑到钢材预测中需要考虑到数据的特征类别,对特征类别进行了筛选分析,从而构建了一套完备的钢材质量预测方法。本专利技术提供的具体技术方案如下:一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,包括如下步骤:S1:数据预处理;对钢材生产过程中采集的数据进行预处理,预处理后得到包含n个初始特征的数据,每一个初始特征包含一个数据集;S2:特征提取;对初始特征进行提取,筛选出k个主成分特征,得到k个主成分特征的数据集;S3:对数据进行分类;将步骤S2所得每一个具有主成分特征的数据集中的数据进行标注,以某一时刻的包含k个主成分特征的数据作为一个样本进行标注,分别标注为质量合格样本和质量不合格样本;将标注后的样本进行分类,部分作为训练样本集,部分作为测试样本集;S4:构建基于Bagging的集成学习模型;S41:构建多个基础分类器;S42:组合所述基础分类器;采用加权平均法,集成学习器的最终投票结果y和基础分类器的投票权重ωi以及投票结果ai的关系为:y=∑ωi*ai(1)。S5:利用训练样本集对步骤S4中构建的集成学习模型进行训练;利用测试样本集对步骤S4中构建的集成学习模型进行测试;S6:使用步骤S5得到的集成学习模型对钢材生产过程中的数据分类,得到分类结果,根据分类结果预测钢材质量;其中,n和k均为大于0的正整数,且k≤n。进一步地,所述步骤S4中,组合所述基础分类器时:获得每个基础分类器的分类准确率acc后,将其转换为与ε-Softmax函数相关的权重ω:其中ε∈(0,1]。进一步地,所述步骤S1中预处理包括:将冗余和误差较大的数据剔除;将无法用技术手段补齐的残缺数据剔除;将数据无量纲化处理。进一步地,所述步骤S1中数据包括:具有S55类型表面缺陷钢材在炼钢、热轧、退火、酸洗四个生产阶段生产数据,以及钢卷在酸洗后的质检结果数据。进一步地,步骤S2中特征提取步骤包括:使用统计学方法对初始特征进行相关性检验,去除相关性较低或无相关性的特征;对剩余每个初始特征中的数据进行随机采样得到多个样本,使用随机森林特征选择算法进行选择,得到特征基尼系数表;投票评估各特征的重要性,得出m个强相关特征,m为大于0的正整数,m≤n;使用主成分分析法进行特征融合,筛选出k个主成分特征,获得具有k个主成分特征的数据集,k≤m。进一步地,所述步骤S3中对数据进行分类具体包括:89%作为训练样本集,11%作为测试样本集。进一步地,所述步骤S5具体包括:利用训练样本集对构建的集成学习模型进行训练,集成学习模型将训练样本集进行分类,并与步骤S3中标注的信息进行比对,如果一致,则判断该轮循环正确;如果不一致,则更正并继续循环;直至所有训练样本集中数据分类准确;使用测试样本集对训练后的集成学习模型进行测试,如测试符合要求则认为集成学习模型训练合格,如测试不符合要求则返回训练步骤继续进行训练。进一步地,所述步骤S6中钢材生产过程中的数据是经过步骤S1预处理和步骤S2特征提取的数据。与现有技术相对比,本专利技术的有益效果如下:(1)本专利技术提供的钢材质量预测方法,充分考虑了钢材生产过程中数据的特征类别,经数据预处理得到包含n个初始特征的数据,去除了初始样本的冗余性、强耦合性,随后经过再通过相关性分析,分析特征和结果的相关性,将无相关性或相关性较低的特征剔除,经过主成分分析,把最相关的特征找出来,通过上述方法对数据进行了降维,得到具有k个主成分特征的数据集。通过该筛选和特征提取,本专利技术筛选出了对钢材质量影响较大的数据,排出了过多的冗余数据和干扰性数据,使得分析速度更快,分析结果精度更高。(2)本专利技术提供的钢材质量预测方法使用的集成学习模型中,引入参数ε∈(0,1]调控集成结果的倾向性,ε越趋近于0则集成学习器越倾向于表现最好的个体学习器,以此来保证集成学习模型的稳定性。并且使用Softmax函数优化个体学习器的结合策略。本专利技术从这两个方面对集成学习模型进行了改进,改进后的模型用于分析经预处理和特征提取后的钢材检测数据,能够有效提高稳定性和准确率。...

【技术保护点】
1.一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,包括如下步骤:/nS1:数据预处理;/n对钢材生产过程中采集的数据进行预处理,预处理后得到包含n个初始特征的数据,每一个初始特征包含一个数据集;/nS2:特征提取;/n对初始特征进行提取,筛选出k个主成分特征,得到k个主成分特征的数据集;/nS3:对数据进行分类;/n将步骤S2所得每一个具有主成分特征的数据集中的数据进行标注,以某一时刻的包含k个主成分特征的数据作为一个样本进行标注,分别标注为质量合格样本和质量不合格样本;将标注后的样本进行分类,部分作为训练样本集,部分作为测试样本集;/nS4:构建基于Bagging的集成学习模型;/nS41:构建多个基础分类器;/nS42:组合所述基础分类器;采用加权平均法,集成学习器的最终投票结果y和基础分类器的投票权重ω

【技术特征摘要】
1.一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,包括如下步骤:
S1:数据预处理;
对钢材生产过程中采集的数据进行预处理,预处理后得到包含n个初始特征的数据,每一个初始特征包含一个数据集;
S2:特征提取;
对初始特征进行提取,筛选出k个主成分特征,得到k个主成分特征的数据集;
S3:对数据进行分类;
将步骤S2所得每一个具有主成分特征的数据集中的数据进行标注,以某一时刻的包含k个主成分特征的数据作为一个样本进行标注,分别标注为质量合格样本和质量不合格样本;将标注后的样本进行分类,部分作为训练样本集,部分作为测试样本集;
S4:构建基于Bagging的集成学习模型;
S41:构建多个基础分类器;
S42:组合所述基础分类器;采用加权平均法,集成学习器的最终投票结果y和基础分类器的投票权重ωi以及投票结果ai的关系为:
y=∑ωi*ai(1)
S5:利用训练样本集对步骤S4中构建的集成学习模型进行训练;利用测试样本集对步骤S4中构建的集成学习模型进行测试;
S6:使用步骤S5得到的集成学习模型对钢材生产过程中的数据分类,得到分类结果,根据分类结果预测钢材质量;
其中,n和k均为大于0的正整数,且k≤n。


2.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,
所述步骤S4中,组合所述基础分类器时:
获得每个基础分类器的分类准确率acc后,将其转换为与ε-Softmax函数相关的权重ω:



其中ε∈(0,1]。


3.如权利要求1所述的一种基于倾向性异质装袋算法的钢材质量预测方法,其特征在于,所述步骤S1中预处理包括:
将冗余和误差较大的数据剔除;
将无法用技术手段补齐的残缺数据剔除;

【专利技术属性】
技术研发人员:梁博德孙践知姜洪朝
申请(专利权)人:北京工商大学中国电子信息产业集团有限公司第六研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1