一种基于Spark计算框架的动能数据处理系统及方法技术方案

技术编号:24206390 阅读:19 留言:0更新日期:2020-05-20 14:50
本发明专利技术涉及一种基于Spark计算框架的动能数据处理系统,包括用于监测工业车间动能数据的数据采集模块、对发布至Kafka消息队列的数据流进行数据计算的数据处理分析模块以及分布式数据存储模块。考虑到数据采集终端的多种多样,Kafka集群设置有可接入多种数据采集终端的功能接口,以此建立了灵活可扩展的数据采集系统,避免了多个数据终端接入的问题。其次,由于所需处理的检测数据量大,采用流计算对来自Kafka消息队列的流数据做加工处理,可以大大提高计算性能。再次,工业车间对设备运行的决策要求处理分析数据的实时性高,因而对数据采用分布式的存储方式。

A kinetic energy data processing system and method based on spark computing framework

【技术实现步骤摘要】
一种基于Spark计算框架的动能数据处理系统及方法
本专利技术涉及对车间各类设备的动能数据处理
,具体涉及一种基于Spark计算框架的动能数据处理系统及方法。
技术介绍
卷烟厂动力车间设备会产生海量的动能数据,为了降低生产成本及提高生产质量,需要对这些动能数据进行采集、处理和分析。而在大数据技术的飞速增长过程中会有如下问题:(1)由于数据量的庞大以及需要对接多方位的系统数据,并不能很好的对这些数据进行采集;(2)大量的数据在传输过程中也会由于信道质量等多样性、复杂性、各种不确定的因素引入不满足质量要求的噪声数据,如异常、错误、重复以及缺失数据等,使得后续数据的分析环节的结果数据准确性降低;(3)终端可视化的数据检索实时性不高。针对上述问题,本专利技术建立了一个灵活可扩展的数据采集系统,在数据存储前采用基于Spark计算框架对数据进行清洗,并对处理后的数据采用分布式的存储方式,最终保证数据的完整性和可靠性。
技术实现思路
为了解决上述的技术问题,本专利技术的第一个目的是提供一种基于Spark计算框架的动能数据处理系统,该系统采用分布式的存储方式、具有灵活可扩展的数据采集系统,且能大大提高计算性能,本专利技术的第二个目的是提供一种基于Spark计算框架的动能数据处理方法。为了实现上述第一个目的,本专利技术采用了以下的技术方案:一种基于Spark计算框架的动能数据处理系统,包括数据采集模块、数据处理分析模块和数据存储模块;所述数据采集模块内置多个传感器节点,用来对MES、能管、动力集控、设备管理等各系统的数据的采集,以获取卷烟厂动力车间各类动能监测数据;所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块,根据应用场景对动能数据进行实时计算和离线分析;所述数据存储模块采用基于Spark计算框架将清洗后的数据存于对应的数据库中。作为优选方案:所述数据处理分析模块对进入Kafka的所有采集的数据采用各种方法进行数据的清洗,包括对数据依次进行重复值、错误值、异常值以及缺失值的清洗,为数据分析提供符合要求的基础数据。作为优选方案:所述数据存储模块提高大数据存储与关系数据库相结合对原始数据、过程数据进行分布式文件存储的同时,将结果保存至关系型数据库Oracle中,并通过sqoop实现分布式文件系统与关系型数据库之间的数据传递。为了实现上述第二个目的,本专利技术采用了以下的技术方案:一种基于Spark计算框架的动能数据处理方法,采用上述的处理系统,步骤如下:步骤1:由无线传感器接收动能数据,对各动能设备的监控数据进行不同主题分区,利用kafka消息队列服务,将数据以流的形式发布至缓冲池;步骤2:启动Kafka消息队列集群的用户接入功能,接入用户向系统发布的任务;步骤3:构建包括消息生产者、消息缓存节点和消息消费者的Kafka集群,并对Kafka集群节点进行主题分区;步骤4:由Kafka集群对消息队列中的数据进行协调服务。消息生产者对用户订阅的任务进行逻辑解析,并推送至Kafka集群节点的主题分区中缓存;步骤5:由实时计算模块从Kafka消息队列的不同主题中按照订阅要求,主动拉取所需主题的分区消息,并由流计算集群节点将数据交由数据计算层进行数据处理。作为优选方案:所述步骤5中,采用基于Spark计算框架的实时计算模块从Kafka消息队列中拉取流数据,并传递给Spark计算框架的计算组件进行加工处理,先后进行数据转换、数据复制、逻辑判断、异常数据处理、数据比对、数据装载、数据路由、数据整合、数据审核操作。作为优选方案:所述Spark计算框架的计算组件进行加工处理,具体涉及以下内容:(1)可视化配置格式转换,包括字段拆分/合并、不同格式间转换;对字段内或字段间做数学运算;根据一个或几个字段做聚类操作;对数据字典和身份证的转换等;(2)可视化配置多种逻辑处理,包括:格式匹配检查、字符串逻辑检查、内容为空检查、重复记录检查、范围内检查、表表外键关联检查、逻辑检查、复合逻辑检查、自定义逻辑检查等;(3)根据逻辑处理情况,对异常数据进行相应的加工策略,策略有三种:一种是将逻辑处理后的数据与目标数据库表内容做比对操作,并根据比对结果做相应的增加、覆盖、删除等处理;第二种是做数据逻辑判断来支持异常情况处理,对于出现异常情况的数据,可以根据逻辑处理设定不同的处理策略,既可以设置为差错数据记录到差错数据库上,供业务人员数据审核处理,也可以路由输入到指定的目标方供业务人员处理,还可以作为异常数据记录到相应日志文件上,并给予监控日志相应提示,供信息操作者根据提示做相应的处理作出对应的判断数据的异常情况;第三种策略是按照字段内容作为路由条件将数据加载到不同的目标上进行处理;(4)记录数据加工过程中不合规范的数据。本专利技术对Kafka集群设置了可以扩展多个数据采集终端的功能接口,数据采集模块可以根据需要灵活地接入多个数据采集系统,避免了数据接入的瓶颈;本专利技术采用基于时间序列特征的数据流异常检测方法对数据流进行预处理,不仅减轻了流计算组件的工作负担,提高了数据处理效率,也能让工作人员提早知道异常数据的环节;本专利技术涉及的基于Spark流计算组件,能减少每次计算的数据访问I/O,优化数据加工算法,把彼此关联计算的结果供下一个计算单元使用,在一个处理服务内能实现转换、异常数据处理、数据整合等功能,大大提高了整体性能。附图说明图1是本专利技术所述的动能数据处理系统整体架构图;图2是本专利技术所述的基于Spark流计算处理流程图;图3是本专利技术提供的一种基于时间序列特征的数据流异常检测方法流程图。具体实施方式为了相关技术人员更清晰的了解本专利技术的技术方案,现结合附图对本专利技术做进一步的详细说明。参见图1,本实施例公开了一种基于Spark计算框架的动能数据处理系统,包括三个模块:数据采集模块、数据处理分析模块、数据存储模块,所述数据采集模块内设置接入多数据采集终端的接口,实现动力系统各环节数据的收集与集成,打通与现有信息系统数据交互,包括MES系统、能管系统、集控系统及基于OPC的数采服务等;所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块,根据应用场景对动能数据进行实时计算和离线分析,Spark计算处理流程如图2所示,具体步骤如下:步骤1:由无线传感器接收动能数据,对各动能设备的监控数据进行不同主题分区,利用kafka消息队列服务,将数据以流的形式发布至缓冲池;步骤2:启动Kafka消息队列集群的用户接入功能,接入用户向系统发布的任务;步骤3:构建包括消息生产者、消息缓存节点和消息消费者的Kafka集群,并对Kafka集群节点进行主题分区;步骤4:由Kafka集群对消息队列中的数据进行协调服务。消息生产者对用户订阅的任务进行逻辑解析,并推送至Kafka集群节点的主题分区中缓存;步骤5:由流计算模块的读取模块从Kafka本文档来自技高网...

【技术保护点】
1.一种基于 Spark 计算框架的动能数据处理系统,其特征在于:包括数据采集模块、数据处理分析模块和数据存储模块;所述数据采集模块内置多个传感器节点,用来对MES、能管、动力集控、设备管理等各系统的数据的采集,以获取卷烟厂动力车间各类动能监测数据;所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块,根据应用场景对动能数据进行实时计算和离线分析;所述数据存储模块采用基于Spark 计算框架将清洗后的数据存于对应的数据库中。/n

【技术特征摘要】
1.一种基于Spark计算框架的动能数据处理系统,其特征在于:包括数据采集模块、数据处理分析模块和数据存储模块;所述数据采集模块内置多个传感器节点,用来对MES、能管、动力集控、设备管理等各系统的数据的采集,以获取卷烟厂动力车间各类动能监测数据;所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块,根据应用场景对动能数据进行实时计算和离线分析;所述数据存储模块采用基于Spark计算框架将清洗后的数据存于对应的数据库中。


2.根据权利要求1所述的一种基于Spark计算框架的动能数据处理系统,其特征在于:所述数据处理分析模块对进入Kafka的所有采集的数据采用各种方法进行数据的清洗,包括对数据依次进行重复值、错误值、异常值以及缺失值的清洗,为数据分析提供符合要求的基础数据。


3.根据权利要求1所述的一种基于Spark计算框架的动能数据处理系统,其特征在于:所述数据存储模块提高大数据存储与关系数据库相结合对原始数据、过程数据进行分布式文件存储的同时,将结果保存至关系型数据库Oracle中,并通过sqoop实现分布式文件系统与关系型数据库之间的数据传递。


4.一种基于Spark计算框架的动能数据处理方法,其特征在于:采用权利要求1至3中任意一项所述的处理系统,步骤如下:
步骤1:由无线传感器接收动能数据,对各动能设备的监控数据进行不同主题分区,利用kafka消息队列服务,将数据以流的形式发布至缓冲池;
步骤2:启动Kafka消息队列集群的用户接入功能,接入用户向系统发布的任务;
步骤3:构建包括消息生产者、消息缓存节点和消息消费者的Kafka集群,并对Kafka集群节点进行主题分区;
步骤4:由Kafka集群对消息队列中的数据进行协调服务,消息生产者对用户订阅的任务进行逻辑解析,并推送至Kafka集群节点的主题分区中缓...

【专利技术属性】
技术研发人员:叶志晖王文娟张成挺钱杰
申请(专利权)人:浙江中烟工业有限责任公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1