一种工业海量非结构化数据处理方法及系统技术方案

技术编号:21361204 阅读:23 留言:0更新日期:2019-06-15 09:18
本发明专利技术提供一种工业海量非结构化数据处理方法及系统,包括获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值、建立并展示筛选后的时间和有效值之间的关系曲线。本发明专利技术将海量的非结构化数据转化为结构化数据,简化了数据处理;实现极短的时间内一次性将百万条数据的趋势曲线进行绘制;将数据可视化成图像更方便生产管理及运维。

A Method and System for Massive Unstructured Data Processing in Industry

The invention provides an industrial mass unstructured data processing method and system, including acquiring unstructured data generated in production, transforming the unstructured data into structured data, constructing generator function, cleaning the structured data according to the screening conditions established by generator function, screening out the effective value, and combining all the selected time periods with the structured data. This time period corresponds to extracting time and valid value, establishing and displaying the relationship curve between screened time and valid value. The invention converts massive unstructured data into structured data, simplifies data processing, realizes drawing trend curves of millions of data at one time in a very short time, and visualizes data into images, which is more convenient for production management and operation and maintenance.

【技术实现步骤摘要】
一种工业海量非结构化数据处理方法及系统
本技术专利技术属于工业生产数据统计分析领域,具体涉及一种工业海量非结构化数据处理方法及系统。
技术介绍
随着工业的迅猛发展,在面向大型设备的企业信息化过程中,越来越多的数据采集被用到了工业生产中,进而捕获了大量的工业监测数据。由于绝大部分监测数据由传感器产生,多为时序数据为主,这些数据通常具有数据量大,易丢失、具有高度的领域相关性等特点,同时也以一种非结构化的形式存在。近年,云计算技术的快速普及以及物联网、移动互联网应用程序的大规模爆发,人类已经全面进入到“大数据”时代,各个行业和领域都在致力于研究如何利用大数据分析来优化流程,监测发展趋势,从而更好地做出决策。借助于云计算的处理与应用模式,通过数据相关分析法,可以实现智慧预测和价值服务。大数据已经成为各行业的重要资产,数据分析能力正在成为核心竞争力。现有技术中,为记录生产环境中的工作状态信息,设备上装置有传感部件,用于捕获生产中的环境信息,捕获到的信息多以log信息存储在设备中。生产中有数据采集设备,也可以捕获数据信息,但无法存储为结构化数据。这种方式存在当读取生产中的监控信息时,需要人工查看log文件,比较消耗人力和时间,且效率较低的问题。在此基础上,提出了在生产环境中,为捕获生产中的状态信息,采用较为先进的捕获设备,并为捕获设备配备专用的存储设备,用于存储捕获到的信息数据。并能将捕获的信息在显示设备上实时显示出来。这种方式在实际实施时需设置数据采集设备需要捕获的信息类型;设置数据采集设备捕获后的信息存放的地址信息;设置数据采集信息显示的设备类型及显示区域;用曲线将所有时间单元内的趋势点按照时间先后顺序连接形成趋势图。但简单的进行时间分段取极值,当数据量较大时,比如需要显示几个月甚至更长时间数据时,筛选出来的极值点较多,影响绘图速度,同时,绘制的曲线会丢失局部的特征值,该特征值即不是极大值,也不是极小值,但是会影响到曲线的走势,是不可以忽略的。工业领域,企业生产的数据有多种来源,且分布于多个独立的系统,各数据源的数据彼此孤立。对于企业基于数据的决策分析者来说,难以利用企业拥有的全部数据资源实现企业的生产优化、经营管理的优化等。因此,为了监控系统的即时与历史运行状态,保存企业生产的海量数据,为企业制造及流程的优化提供信息支撑,所以急需寻求一种工业海量非结构化数据处理方法及系统,将海量的非结构化数据转化为结构化数据,数据存储,再用于生产的管理及运营中简化数据处理并将数据可视化成图像更方便生产管理及运维。
技术实现思路
本专利技术针对现有技术中所存在的工业监控数据尤其是采集频率较高、周期较长的数据非结构化的问题,提供了一种将海量的非结构化数据转化为结构化数据的工业海量非结构化数据处理方法及系统。本专利技术就上述技术问题而提出的技术方案如下:一种工业海量非结构化数据处理方法,包括:获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。其中,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到的非结构化数据通过SparkSQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;将所述.csv文件保存在存储设备上。其中,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。其中,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。其中,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。另一方面,本专利技术还提供了一种工业海量非结构化,包括:数据采集模块,用于获取生产中产生的非结构化数据;数据转换模块,连接所述数据采集模块,用于将所述非结构化数据转化为结构化数据;数据清洗和展示模块,连接所述数据转换模块,用于提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。其中,所述数据转换模块进一步包括:转换模块和存储模块,转换模块,连接所述数据采集模块,用于将获取到的非结构化数据通过SparkSQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;存储模块,连接所述转换模块,用于将所述.csv文件保存在存储设备上。其中,所述数据清洗和展示模块进一步包括:数据清洗模块和展示模块,数据清洗模块,用于构建生成器函数,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。其中,所述数据清洗模块进一步包括:单阈值筛选模块和累积阈值筛选模块,所述单阈值筛选模块,用于将当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选模块,用于将当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。其中,所述数据清洗模块还包括:绝对阈值筛选模块,所述绝对阈值筛选模块,用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。本专利技术提供的技术方案带来的有益效果是:本专利技术针对现有技术中所存在的工业监控数据尤其是采集频率较高、周期较长的数据非结构化的问题,提供了一种将海量的非结构化数据转化为结构化数据的工业海量非结构化数据处理方法及系统。本专利技术使用SparkSQL技术对海量的非结构化数据自动进行转换操作,转化为结构化数据,简化了数据处理;有专用的存储机制和设备可以保存转化后的结构化数据,供后期的生产及运维提数据支撑;通过数据清洗方式得到有效数据值,可在极短的时间内(秒级)一次性将百万条数据提取,并且快速进行趋势图绘制;通过绘图工具将数据可视化成图像更方便生产管理及运维。附图说明图1是本专利技术实施例一提供的工业海量非结构化数据处理方法流程图;图2是本专利技术实施例一中步骤S200的流程图;图3为本专利技术实施例一中步骤S300的流程图本文档来自技高网
...

【技术保护点】
1.一种工业海量非结构化数据处理方法,其特征在于,包括:获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。

【技术特征摘要】
1.一种工业海量非结构化数据处理方法,其特征在于,包括:获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。2.根据权利要求1所述方法,其特征在于,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到的非结构化数据通过SparkSQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;将所述.csv文件保存在存储设备上。3.根据权利要求1所述方法,其特征在于,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。4.根据权利要求3所述方法,其特征在于,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。5.根据权利要求4所述方法,其特征在于,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。6.一种工业海量非结构化数据处理系统,其特征在于,包括:数据采集模块,用于获取生产中产生的非结构化数据;数据转换模块,连接所述数据采集模块,用于将所述非结构化数据转化为结构化数据...

【专利技术属性】
技术研发人员:汪纯锋王云福涂红兵崔晓光魏欣南吴作胜欧荣贵
申请(专利权)人:中广核工程有限公司深圳中广核工程设计有限公司中国广核集团有限公司中国广核电力股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1