一种基于Spark大数据平台的铝电解过热度预测方法技术

技术编号:20244531 阅读:72 留言:0更新日期:2019-01-29 23:55
本发明专利技术请求保护一种基于Spark大数据平台的铝电解过热度预测方法,涉及数据挖掘技术和铝电解工业。首先,读取大规模数据集,每一张表创建分布式数据集RDD,完成初始化操作。其次,对每个RDD,使用相同的方法进行特征提取,得到样本数据集YRDD。再次,使用过热度计算公式对每个样本进行打标。然后,进行过采样操作以达到样本数平衡。YRDD合成一个总样本数据集ZRDD作为样本集。最后,将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用分类算法对训练集进行训练得到分类器。对测试集进行分类,得到分类结果。用户输入一段时间的测试数据,得到未来一段时间的过热度预测值。本发明专利技术大幅度提高得到分类结果的时间。

【技术实现步骤摘要】
一种基于Spark大数据平台的铝电解过热度预测方法
本专利技术属于信息技术、铝电解工业、数据挖掘等领域,提供了一种基于Spark大数据平台的铝电解过热度预测模型。
技术介绍
随着计算机信息领域的飞速发展,大量的数据从生活的各个方面被收集起来,互联网上各种各样信息的规模也在成几何倍数的增大,从海量的数据中迅速分析从而提取隐藏在数据中的信息变得越来越重要。在铝电解生产过程中,过热度是指电解质温度与初晶温度的差值,是一项很重要的指标。如果电解槽工作在适当的过热度状态下,那么可以提高电流效率,降低电解槽损耗,延长电解槽寿命。但是,由于铝电解在生产过程中会涉及到大量的生产参数以及复杂的环境变化,因此过热度测量难度较大且测量过程复杂。对除过热度外的参数进行分析来预测未来过热度显得意义重大。Spark是一个基于内存的分布式计算系统,是由UCBerkeleyAMPLab实验室于2009年开发的开源数据分析集群计算框架。拥有MapReduce的所有优点,与MapReduce不同的是.Spark将计算的中间结果数据持久地存储在内存中,通过减少磁盘I/O。使后续的数据运算效率更高。Spark的这种架构设计本文档来自技高网...

【技术保护点】
1.一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,包括步骤:数据加载阶段:输入需要构建样本的数据集,数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔及实际下料间隔参数,将其转换成Spark平台的分布式数据集RDD,并且完成初始化操作;样本集构建阶段:对每个分布式数据集RDD,使用处理时间维度样本时常用的滑窗法进行特征提取,得到样本数据集YRDD,使用过热度计算公式对每个样本进行打标;对于每个YRDD,如果正反例样本数量不平衡,则对YRDD进行过采样操作使样本数平衡;...

【技术特征摘要】
1.一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,包括步骤:数据加载阶段:输入需要构建样本的数据集,数据集包括设定电压、槽电压、槽电流、槽电阻、过滤电阻、平滑电阻、设定最高电压、设定最低电压、效应等待间隔、针振、摆动、电阻变化斜率、电阻总变化斜率、基准下料间隔及实际下料间隔参数,将其转换成Spark平台的分布式数据集RDD,并且完成初始化操作;样本集构建阶段:对每个分布式数据集RDD,使用处理时间维度样本时常用的滑窗法进行特征提取,得到样本数据集YRDD,使用过热度计算公式对每个样本进行打标;对于每个YRDD,如果正反例样本数量不平衡,则对YRDD进行过采样操作使样本数平衡;将过采样操作后的YRDD合成一个总样本数据集ZRDD作为样本集;模型训练阶段:将样本集划分为训练集和测试集,将过热度作为标签,其他作为特征,使用Xgboost分类算法对训练集进行训练得到分类器;过热度预测阶段:使用得到的分类器对测试集进行分类,得到分类结果并保存模型;用户读取存放在关系型数据库或数据仓库中的原始数据,去除掉无关属性,保留与模型相关的测量值和人为设定值,作为输入,调用得到模型的预测标签,完成过热度预测。可修改人为设定值进行重复预测直至满足用户需要。2.根据权利要求1所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,所述数据加载阶段将数据集转换成Spark平台的分布式数据集RDD,并且完成初始化操作,具体包括:首先创建一个SparkContext对象,SparkContext是Spark的入口,负责连接Spark集群、创建RDD、累积量和广播量;然后调用它的parallelize(DataSet)或textFile(DataSetURL)函数创建分布式数据集RDD,一旦创建完成,这个分布式数据集就可以被并行操作;即,RDD=sc.textFile(DataSetURL)。3.根据权利要求1所述的一种基于Spark大数据平台的铝电解过热度预测方法,其特征在于,所述样本集构建阶段得到样本数据集YRDD具体包括:遍历RDD中的每条数据,找到该数据前9条数据,将每3条数据分为1组,算出每组数据中每个测量属性的均值、方差、最大值作为特征集;算出每组数据中每个测量属性均值与前一组数据对应均值的变化值绝对值和变化率作为特征集;对于RDD中每条数据中的设定电压、设定最大电压、设定最小电压、效应等待间隔属性,将其作为特征,算出设定电压、设定最大电压、设定最小电压与实际电压均值的变化率和变化值绝对值,作为特征;算出设定电压、设定最大电压、设定最小电压与前9天每一天的对应值的变化率和变化值绝对值,作为特征,将得到的所有特征合起来,得到若干个样本数据集YRDD。4.根据权利要求3所述的一种基于Spark大数据平台的铝电解...

【专利技术属性】
技术研发人员:胡峰郭英杰于洪史明辉王津康峻玮李秋莹何倩候嘉欣潘洪杭赵英刚朱正鑫
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1