当前位置: 首页 > 专利查询>中南大学专利>正文

基于大数据的高炉铁水硅含量预报关键属性判决方法技术

技术编号:21571416 阅读:24 留言:0更新日期:2019-07-10 15:23
本发明专利技术公开了一种基于大数据的高炉铁水硅含量预报关键属性判决方法,包括以下步骤:将铁水硅含量及其相关属性数据表示为一个决策表,表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为高炉铁水硅含量数据;对调整后的决策表进行整体排序;通过比较排序后的决策表中的相邻样本,判断候选属性是否为关键属性;如果存在相邻两个样本除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性为关键属性。本发明专利技术计算效率高。

Key Attribute Decision Method for Silicon Content Prediction of Blast Furnace Hot Metal Based on Large Data

【技术实现步骤摘要】
基于大数据的高炉铁水硅含量预报关键属性判决方法
本专利技术涉及一种基于大数据的高炉铁水硅含量预报关键属性判决方法。
技术介绍
在高炉冶炼过程中,铁水硅含量预报是表征炉内温度,评估高炉冶炼状态以及优化控制的关键因素,吸引了大量研究者的注意。然而,现有的铁水硅含量预报模型都比较依赖于良好的输入集。由于机理复杂,数据噪声严重、数据量巨大等因素影响,高炉铁水硅含量预报的关键属性判断困难重重,已有的方法多采用人为经验或相关性判断进行关键属性判断,存在着计算复杂、难以适应大数据计算、以及存在人为主观性因素等缺点。针对多属性的高炉铁水硅含量数据集,传统的关键属性判决方法常利用属性的相关性来进行辨别。通常采用多元线性回归的方法计算各属性与铁水硅含量的相关系数,设某一属性值和铁水硅含量值为x,y,采用多项式回归的方法进行变量间的相关性分析,回归方程如下:式中a0,a1,...,am为待求参数。若令上式中t1=x,t2=x2,...,tm=xm,则多项式回归方程可化为多元线性回归方程:上式对应的复相关系数为Rxy:其中,是硅含量测量值的平均值。计算所有属性与铁水硅含量的相关系数,并构建一个列表,然后人为地挑选部分相关度高的属性作为关键属性。然而,这种传统的基于相关性的关键属性判决方法存在不足:1,算法效率问题。互相关性计算本身是一个较为复杂的运算,算法的时间复杂度较高。2,难以应对大规模数据集。当样本数量达到千万甚至亿级别之后,需要基于大数据平台进行处理,此时,过于复杂的传统算法性能很难得到效率层面的支撑。3,相关性分析只提供了一个重要度参考,在实际处理过程中,还需要人为判定是否为关键属性,存在人为干扰。因此,有必要设计一种效率高、能适用于大规模数据集,并且准确客观的关键属性判决方法。
技术实现思路
本专利技术的目的在于,针对传统基于相关性判决方法在计算效率、难以适应大数据处理以及存在人为因素干扰等方面存在的缺陷,提供一种基于大数据的高炉铁水硅含量预报关键属性判决方法,计算效率高,且能很好地移植到大数据平台上。本专利技术所提供的技术方案为:一种基于大数据的高炉铁水硅含量预报关键属性判决方法,包括以下步骤:Step1、基于粗糙集理论,将铁水硅含量及其相关属性数据表示为一个决策表:S=<U,At>其中,U是所有样本的集合,At=C∪D,C={c1,c2,…,cn}称为条件属性集,c1,c2,…,cn为n个条件属性,D={d}称为决策属性集;表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;本专利技术中条件属性为与高炉铁水硅含量相关的属性,决策属性只有一个,为高炉铁水硅含量;Step2、对决策表中的数据进行预处理,包括修正不一致样本和删除重复样本;其中不一致样本是指条件属性值相同而决策属性值不同的样本;Step3、挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为铁水硅含量数据d;Step4、对Step3调整后的决策表进行整体排序;Step5、通过比较Step4排序后的决策表中的相邻样本,判断候选属性是否为关键属性;判断的依据是,如果Step4排序后的决策表中存在相邻两行样本xi,xi+1满足条件:Bn-1(xi)=Bn-1(xi+1),d(xi)≠d(xi),Bn-1={c1,c2,…,cn-1},即样本xi和xi+1除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性cn为属性集C中的关键属性。进一步地,所述Step2中,数据集预处理需要删除重复的样本,同时,如果数据集是不一致的,则需要基于粗糙集知识分类方法进行处理。本专利技术设计了精简的排序和去重复处理计算方法,具体策略为:将所有的不一致样本的决策属性值(铁水硅含量)变更为一个全新的值。具体地,所述Step1采用Hadoop平台的MapReduce计算框架实现,过程为:首先,在map阶段,将决策表中每个样本的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,分别针对每个key值,判断其对应的value-list是否包含多个元素,如果是,则对多个元素进行判断,若存在相同元素,说明存在重复的样本,则去除重复元素(去除重复样本),若存在不同元素,说明存在不一致的样本,则将这些不同的元素修改为一个全新的值d0,d0可以是任意的未出现在决策表决策属性值里的数,简便起见使用如下公式计算:d0=max(d(x))+1,即令d0比决策表中已有的最大决策属性值大1,最终输出key-value’对,value’为对key值对应的value-list进行上述处理后得到的唯一的元素值value’。进一步地,所述Step4和Step5可以直接利用一个基于Hadoop的job(一个MapReduce作业在Hadoop中称为Job)实现。具体过程为:在map阶段,将调整后的决策表中每个样本除候选属性之外的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,依次针对每个key值进行检测,若某一key值对应的value-list中包含不同元素,则说明该候选属性为关键属性,否则该候选属性为非关键属性。进一步地,所述条件属性包括风速、热风压力、富氧率和燃烧温度。本专利技术基于Hadoop的job利用Hadoop自带的shuffle阶段来实现、高效排序,在map函数输出后,Hadoop平台会自动运行shuffle过程,对map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件,分区有序的含义是map输出的键值对按分区进行排列,具有相同partition值的键值对存储在一起,每个分区里面的键值对又按key值进行升序排列(默认),由此,自动实现数据集的整体排序。总体过程如图1所示。数据集的排序工作避免了样本矩阵的整体遍历,取而代之的是比较相邻两个样本,总体的样本比较次数由n(n-1)|C|/2缩减为(n-1)|C|,很大程度地缩短了运行时间。有益效果:本专利技术提供了一种基于大数据平台的高炉铁水硅含量预报关键属性判决方法,该方法是一种全新的判决方法,基于粗糙集理论以及Hadoop大数据平台计算框架中MapReduce的运行机制,简洁高效,为工业大数据背景下海量数据分析与建模提供输入集优选方面的理论支持与实现方法。其结构十分精简,计算快速,核心步骤只有排序和比较两个阶段,并且可移植性强。本专利技术的优点在于:1,关键属性识别方法简单,只包含排序和比较操作;2,能很好地移植到大数据平台上,能处理大规模数据集;3,与Hadoop平台契合度高,充分利用了该平台中MapReduce计算框架的shu本文档来自技高网
...

【技术保护点】
1.一种基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,包括以下步骤:Step1、将铁水硅含量及其相关属性数据表示为一个决策表,表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;其中条件属性为与高炉铁水硅含量相关的属性,决策属性为高炉铁水硅含量;Step2、对决策表中的数据进行预处理,包括修正不一致样本和删除重复样本;其中不一致样本是指条件属性值相同而决策属性值不同的样本;Step3、挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为高炉铁水硅含量数据;Step4、对Step3调整后的决策表进行整体排序;Step5、通过比较Step4排序后的决策表中的相邻样本,判断候选属性是否为关键属性;判断的依据是,如果Step4排序后的决策表中存在相邻两个样本xi和xi+1满足:除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性为关键属性。

【技术特征摘要】
1.一种基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,包括以下步骤:Step1、将铁水硅含量及其相关属性数据表示为一个决策表,表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;其中条件属性为与高炉铁水硅含量相关的属性,决策属性为高炉铁水硅含量;Step2、对决策表中的数据进行预处理,包括修正不一致样本和删除重复样本;其中不一致样本是指条件属性值相同而决策属性值不同的样本;Step3、挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为高炉铁水硅含量数据;Step4、对Step3调整后的决策表进行整体排序;Step5、通过比较Step4排序后的决策表中的相邻样本,判断候选属性是否为关键属性;判断的依据是,如果Step4排序后的决策表中存在相邻两个样本xi和xi+1满足:除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性为关键属性。2.根据权利要求1所述的基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,所述Step2采用Hadoop平台的MapReduce计算框架实现,过程为:首先,在map阶段,将决策表中每个样本的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在r...

【专利技术属性】
技术研发人员:尹林子李靖蒋昭辉许雪梅丁家峰
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1