The invention provides an industrial mass unstructured data processing method and system, including acquiring unstructured data generated in production, transforming the unstructured data into structured data, constructing generator function, cleaning the structured data according to the screening conditions established by generator function, screening out the effective value, and combining all the selected time periods with the structured data. This time period corresponds to extracting time and valid value, establishing and displaying the relationship curve between screened time and valid value. The invention converts massive unstructured data into structured data, simplifies data processing, realizes drawing trend curves of millions of data at one time in a very short time, and visualizes data into images, which is more convenient for production management and operation and maintenance.
【技术实现步骤摘要】
一种工业海量非结构化数据处理方法及系统
本技术专利技术属于工业生产数据统计分析领域,具体涉及一种工业海量非结构化数据处理方法及系统。
技术介绍
随着工业的迅猛发展,在面向大型设备的企业信息化过程中,越来越多的数据采集被用到了工业生产中,进而捕获了大量的工业监测数据。由于绝大部分监测数据由传感器产生,多为时序数据为主,这些数据通常具有数据量大,易丢失、具有高度的领域相关性等特点,同时也以一种非结构化的形式存在。近年,云计算技术的快速普及以及物联网、移动互联网应用程序的大规模爆发,人类已经全面进入到“大数据”时代,各个行业和领域都在致力于研究如何利用大数据分析来优化流程,监测发展趋势,从而更好地做出决策。借助于云计算的处理与应用模式,通过数据相关分析法,可以实现智慧预测和价值服务。大数据已经成为各行业的重要资产,数据分析能力正在成为核心竞争力。现有技术中,为记录生产环境中的工作状态信息,设备上装置有传感部件,用于捕获生产中的环境信息,捕获到的信息多以log信息存储在设备中。生产中有数据采集设备,也可以捕获数据信息,但无法存储为结构化数据。这种方式存在当读取生产中的监控信息时,需要人工查看log文件,比较消耗人力和时间,且效率较低的问题。在此基础上,提出了在生产环境中,为捕获生产中的状态信息,采用较为先进的捕获设备,并为捕获设备配备专用的存储设备,用于存储捕获到的信息数据。并能将捕获的信息在显示设备上实时显示出来。这种方式在实际实施时需设置数据采集设备需要捕获的信息类型;设置数据采集设备捕获后的信息存放的地址信息;设置数据采集信息显示的设备类型及显示区域;用曲线 ...
【技术保护点】
1.一种工业海量非结构化数据处理方法,其特征在于,包括:获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。
【技术特征摘要】
1.一种工业海量非结构化数据处理方法,其特征在于,包括:获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。2.根据权利要求1所述方法,其特征在于,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到的非结构化数据通过SparkSQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;将所述.csv文件保存在存储设备上。3.根据权利要求1所述方法,其特征在于,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。4.根据权利要求3所述方法,其特征在于,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。5.根据权利要求4所述方法,其特征在于,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。6.一种工业海量非结构化数据处理系统,其特征在于,包括:数据采集模块,用于获取生产中产生的非结构化数据;数据转换模块,连接所述数据采集模块,用于将所述非结构化数据转化为结构化数据...
【专利技术属性】
技术研发人员:汪纯锋,王云福,涂红兵,崔晓光,魏欣南,吴作胜,欧荣贵,
申请(专利权)人:中广核工程有限公司,深圳中广核工程设计有限公司,中国广核集团有限公司,中国广核电力股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。