当前位置: 首页 > 专利查询>东北大学专利>正文

一种C-Mn钢工业大数据的挖掘方法技术

技术编号:13290587 阅读:95 留言:0更新日期:2016-07-09 09:11
本发明专利技术提出一种C‑Mn钢工业大数据的挖掘方法,属于钢铁工业生产和数据统计建模的交叉技术领域,该方法包括数据样本选取、钢卷归并、相似工艺聚类和训练数据均匀化;本发明专利技术通过选择多个钢牌号的数据,使数据样本中包含了较为全面的参数信息,反映出更客观的物理冶金规律,使模型具有更广泛的适用性;通过对检测钢坯成分的判断和采用聚类的方法,将相似工艺的多组数据校正为一组数据,精简数据量,删除冗余数据;在此过程中剔除了异常数据,减小了误差,使数据的规律性更为显著;通过统计训练数据三种力学性能的分布,调整了训练数据的分布均衡性;采用均衡的数据训练神经网络,可以使网络模型学习到均衡的信息,提高了模型的规律性和准确性。

【技术实现步骤摘要】

本专利技术属于钢铁工业生产和数据统计建模的交叉
,具体涉及一种C-Mn钢工业大数据的挖掘方法
技术介绍
在C-Mn钢的工业生产中会采集到大量的生产数据,技术人员可以通过这些数据包含的信息建立力学性能预测模型,但是如果将原始生产数据不经处理直接应用,则会产生很多问题。首先,原始生产数据中存在着大量的冗余数据,过多的冗余数据会增大建模的计算量,同时导致规律性不够显著;一般情况下,每炉钢水通常可以生产出若干钢卷,在检测力学性能时,会从每块钢卷切取若干样品;如果这部分钢卷都用来生产同一厚度规格的板带材,采取同一轧制工艺,则每一炉钢锭会对应多组数据;因此这些数据所包含的信息都是相同或相近的,在数据建模中应用大量包含相同信息的数据会增大建模的计算量;由于出钢记号的工艺标准是以区间的形式制定的,实际工艺受生产线设备能力的约束,故采集到的数据呈离散状态分布。工艺参数在数值上微小的波动是实际生产操作中误差允许范围内的,这些数据也可视为包含相同或相近信息的数据,同样会增大建模的计算量。其次,由于检测误差和工业系统中人工干预的存在,如果将生产线采集到的原始数据不经过处理直接用于建模,其分析结果很容易出现偏离事实的畸变;此外,工业数据通常分布不均衡,这样的数据无法反应客观全面的信息,导致建立的模型所包含的特征倾向于数据集中的区域的特征;比如采用神经网络建立力学性能模型时(图5),分析屈服强度随C含量的变化曲线,当C含量高于0.1%后,则会出现屈服强度随着C含量的增加而降低的现象;同样的,在分析终轧厚度和卷取温度时也会发生违背物理冶金学规律的现象;这是因为原始数据分布不均匀,信噪比低,同时生产中存在过多的人工反馈调节导致数据规律被埋没;因此在应用神经网络建模前需要开发出一系列方法挖掘出C-Mn钢工业大数据中蕴含的合理的物理冶金关系;只有采用正确的成分工艺性能对应关系的数据才能建立反映正确物理冶金关系的模型,从而有助于在之后的力学性能目标值逆向优化计算中得到正确的工艺;因此对于C-Mn钢生产大数据的蕴含成分工艺性能关系的准确挖掘是力学性能工艺优化的重要基础。通过检索国家知识产权局数据库及SOOPAT数据库,目前针对C-Mn钢工业大数据的挖掘方法并没有相关专利发表;目前文献中钢铁生产数据建模主要是采用单钢种进行建模,由于单钢种生产工艺的单一性,导致数据分布集中于轧钢工艺的设定的目标值,这样选取的数据无法包括全面的工艺信息,导致模型适用性差;文献中的数据挖掘方法也过于简单,通常只包含有数据加载和数据清洗两个步骤,而且数据清洗方法较为单调,没有考虑C-Mn实际生产的工艺特征,往往不能满足用户需求,导致数据挖掘的结果不理想,直接影响到建模的准确性和有效性。
技术实现思路
针对现有技术的不足,本专利技术提出一种C-Mn钢工业大数据的挖掘方法,该方法保证神经网络学习到均衡的信息,提高泛化能力,采用钢卷归并和相似工艺聚类的方法将数据进行精简,剔除误差值,去除冗余数据,减小建模时计算量,使数据呈现出显著的规律性,达到提高方法的适用性和准确性的目的。一种C-Mn钢工业大数据的挖掘方法,包括以下步骤:步骤1、选取相同系列不同强度级别钢牌号数据,包括:成分含量参数:C含量、Si含量和Mn含量;工艺参数:精轧出口温度、终轧温度、终轧厚度和卷取温度;力学性能参数:屈服强度、抗拉强度和延伸率;步骤2、对数据中的空缺值进行填补;步骤3、根据每条数据的成分含量进行同一炉的钢卷归并,具体步骤如下:步骤3-1、根据数据中C含量、Si含量和Mn的含量选出来源于同一炉钢的数据,即C含量、Si含量和Mn含量相同,则判定这些数据来源于同一炉钢;步骤3-2、在来源于同一炉钢的数据中,进一步选取在工艺参数平均值波动范围内的数据,获得其对应的力学性能参数;步骤3-3、对获得的力学性能参数进行整条异常数据剔除处理,再将处理后的所有数据中各参数求取平均值,用平均值替代对应组的数据,完成钢卷归并;步骤4、对钢卷归并后的各条数据进行相似工艺聚类,具体步骤如下:步骤4-1、设置聚类分组数,对C含量、Si含量、Mn含量、终轧厚度和卷取温度进行分层聚类;步骤4-2、判断分层聚类后的每一组数据中C含量最大值与最小值之间的差值、Si含量最大值与最小值之间的差值、Mn含量最大值与最小值之间的差值、终轧厚度最大值与最小值之间的差值、卷取温度最大值与最小值之间的差值,是否在各自的设定范围内,若是,则执行步骤4-3,否则返回执行步骤4-1;步骤4-3、对分层聚类后每一组数据进行整条异常数据剔除处理,再将处理后的所有数据中各参数求取平均值,用平均值替代对应组的数据,完成工艺聚类;步骤5、判断是否有工艺聚类后的任意两条数据中存在:C含量1≥C含量2,Si含量1≥Si含量2,Mn含量1≥Mn含量2,终轧厚度1≤终轧厚度2,卷取温度1≤卷取温度2,屈服强度1=屈服强度2的情况,若有,则求取该两条数据的平均值,用平均值替代该两条数据,并执行步骤6;否则直接执行步骤6;步骤6、根据数据中屈服强度、抗拉强度和延伸率的最大频数构建多目标优化函数,将多目标优化函数的解作为每组数据的复制倍数,完成对数据的均匀化处理;步骤7、将均匀化处理后的数据中C含量、Si含量、Mn含量、精轧出口温度、终轧温度、终轧厚度和卷取温度作为BP神经网络的输入,将屈服强度、抗拉强度和延伸率作为BP神经网络的输出,完成BP神经网络的训练;步骤8、在实际工艺设计时,所需成分含量参数和工艺参数输入BP神经网络中,获得预测的力学性能值;步骤9、将预测的力学性能值与设定的目标值进行比较,具体如下:若预测值小于目标值,则该方案不能满足需求,赋予目标值一个大的常数值;若预测值在目标值和p倍的目标值之间,p>1,则该方案为最优方案;若预测值大于p倍的目标值,则该方案为次优方案;步骤10、根据步骤9的比较结果构建目标函数,搜索此目标函数的最优解集,该解集即为生产目标力学性能的钢种的轧制工艺方案,根据该方案对钢材进行轧制。步骤2所述的对数据中的空缺值进行填补,具体为:若成分含量参数和工艺参数缺失,则剔除该条数据,若其他数据缺失,则采用相邻数据平均值代替。步骤3-2所述的平均值波动范围,具体为:终轧厚度平均值的±0.5mm,卷取温度平均值的±20℃。步骤3-3所述的对获得的力学性能参数进行整条异常数据剔除处理和步骤4-3所述的对分层聚类后每一组数据进行整条异常数据剔除处理,具体为:判断一组数据的数目是否超过30组,若是,则统计屈本文档来自技高网
...

【技术保护点】
一种C‑Mn钢工业大数据的挖掘方法,其特征在于,包括以下步骤:步骤1、选取相同系列不同强度级别钢牌号数据,包括:成分含量参数:C含量、Si含量和Mn含量;工艺参数:精轧出口温度、终轧温度、终轧厚度和卷取温度;力学性能参数:屈服强度、抗拉强度和延伸率;步骤2、对数据中的空缺值进行填补;步骤3、根据每条数据的成分含量进行同一炉的钢卷归并,具体步骤如下:步骤3‑1、根据数据中C含量、Si含量和Mn的含量选出来源于同一炉钢的数据,即C含量、Si含量和Mn含量相同,则判定这些数据来源于同一炉钢;步骤3‑2、在来源于同一炉钢的数据中,进一步选取在工艺参数平均值波动范围内的数据,获得其对应的力学性能参数;步骤3‑3、对获得的力学性能参数进行整条异常数据剔除处理,再将处理后的所有数据中各参数求取平均值,用平均值替代对应组的数据,完成钢卷归并;步骤4、对钢卷归并后的各条数据进行相似工艺聚类,具体步骤如下:步骤4‑1、设置聚类分组数,对C含量、Si含量、Mn含量、终轧厚度和卷取温度进行分层聚类;步骤4‑2、判断分层聚类后的每一组数据中C含量最大值与最小值之间的差值、Si含量最大值与最小值之间的差值、Mn含量最大值与最小值之间的差值、终轧厚度最大值与最小值之间的差值、卷取温度最大值与最小值之间的差值,是否在各自的设定范围内,若是,则执行步骤4‑3,否则返回执行步骤4‑1;步骤4‑3、对分层聚类后每一组数据进行整条异常数据剔除处理,再将处理后的所有数据中各参数求取平均值,用平均值替代对应组的数据,完成工艺聚类;步骤5、判断是否有工艺聚类后的任意两条数据中存在:C含量1≥C含量2,Si含量1≥Si含量2,Mn含量1≥Mn含量2,终轧厚度1≤终轧厚度2,卷取温度1≤卷取温度2,屈服强度1=屈服强度2的情况,若有,则求取该两条数据的平均值,用平均值替代该两条数据,并执行步骤6;否则直接执行步骤6;步骤6、根据数据中屈服强度、抗拉强度和延伸率的最大频数构建多目标优化函数,将多目标优化函数的解作为每组数据的复制倍数,完成对数据的均匀化处理;步骤7、将均匀化处理后的数据中C含量、Si含量、Mn含量、精轧出口温度、终轧温度、终轧厚度和卷取温度作为BP神经网络的输入,将屈服强度、抗拉强度和延伸率作为BP神经网络的输出,完成BP神经网络的训练;步骤8、在实际工艺设计时,所需成分含量参数和工艺参数输入BP神经网络中,获得预测的力学性能值;步骤9、将预测的力学性能值与设定的目标值进行比较,具体如下:若预测值小于目标值,则该方案不能满足需求,赋予目标值一个大的常数值;若预测值在目标值和p倍的目标值之间,p>1,则该方案为最优方案;若预测值大于p倍的目标值,则该方案为次优方案;步骤10、根据步骤9的比较结果构建目标函数,搜索此目标函数的最优解集,该解集即为生产目标力学性能的钢种的轧制工艺方案,根据该方案对钢材进行轧制。...

【技术特征摘要】
1.一种C-Mn钢工业大数据的挖掘方法,其特征在于,包括以下步骤:
步骤1、选取相同系列不同强度级别钢牌号数据,包括:成分含量参数:C含量、Si含量和
Mn含量;工艺参数:精轧出口温度、终轧温度、终轧厚度和卷取温度;力学性能参数:屈服强
度、抗拉强度和延伸率;
步骤2、对数据中的空缺值进行填补;
步骤3、根据每条数据的成分含量进行同一炉的钢卷归并,具体步骤如下:
步骤3-1、根据数据中C含量、Si含量和Mn的含量选出来源于同一炉钢的数据,即C含量、
Si含量和Mn含量相同,则判定这些数据来源于同一炉钢;
步骤3-2、在来源于同一炉钢的数据中,进一步选取在工艺参数平均值波动范围内的数
据,获得其对应的力学性能参数;
步骤3-3、对获得的力学性能参数进行整条异常数据剔除处理,再将处理后的所有数据
中各参数求取平均值,用平均值替代对应组的数据,完成钢卷归并;
步骤4、对钢卷归并后的各条数据进行相似工艺聚类,具体步骤如下:
步骤4-1、设置聚类分组数,对C含量、Si含量、Mn含量、终轧厚度和卷取温度进行分层聚
类;
步骤4-2、判断分层聚类后的每一组数据中C含量最大值与最小值之间的差值、Si含量
最大值与最小值之间的差值、Mn含量最大值与最小值之间的差值、终轧厚度最大值与最小
值之间的差值、卷取温度最大值与最小值之间的差值,是否在各自的设定范围内,若是,则
执行步骤4-3,否则返回执行步骤4-1;
步骤4-3、对分层聚类后每一组数据进行整条异常数据剔除处理,再将处理后的所有数
据中各参数求取平均值,用平均值替代对应组的数据,完成工艺聚类;
步骤5、判断是否有工艺聚类后的任意两条数据中存在:C含量1≥C含量2,Si含量1≥Si
含量2,Mn含量1≥Mn含量2,终轧厚度1≤终轧厚度2,卷取温度1≤卷取温度2,屈服强度1=屈服
强度2的情况,若有,则求取该两条数据的平均值,用平均值替代该两条数据,并执行步骤6;
否则直接执行步骤6;
步骤6、根据数据中屈服强度、抗拉强度和延伸率的最大频数构建多目标优化函数,将
多目标优化函数的解作为每组数据的复制倍数,完成对数据的均匀化处理;
步骤7、将均匀化处理后的数据中C含量、Si含量、Mn含量、精轧出口温度、终轧温度、终
轧厚度和卷取温度作为BP神经网络的输入,将屈服强度、抗拉强度和延伸率作为BP神经网
络的输出,完成BP神经网络的训练;
步骤8、在实际工艺设计时,所需成分含量参数和工艺参数输入BP神经网络中,获得预
测的力学性能值;
步骤9、将预测的力学性能值与设定的目标值进行比较,具体如下:
若预测值小于目标值,则该方案不能满足需求,赋予目标值一个大的常数值;
若预测值在目标值和p倍的目标值之间,p>1,则该方案为最优方案;
若预测值大于p倍的目标值,则该方案为次...

【专利技术属性】
技术研发人员:刘振宇吴思炜周晓光曹光明陈其源任家宽
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1