一种基于Spark计算框架的动能数据处理系统及方法技术方案

技术编号：24206390 阅读：19 留言：0更新日期：2020-05-20 14:50

本发明专利技术涉及一种基于Spark计算框架的动能数据处理系统，包括用于监测工业车间动能数据的数据采集模块、对发布至Kafka消息队列的数据流进行数据计算的数据处理分析模块以及分布式数据存储模块。考虑到数据采集终端的多种多样，Kafka集群设置有可接入多种数据采集终端的功能接口，以此建立了灵活可扩展的数据采集系统，避免了多个数据终端接入的问题。其次，由于所需处理的检测数据量大，采用流计算对来自Kafka消息队列的流数据做加工处理，可以大大提高计算性能。再次，工业车间对设备运行的决策要求处理分析数据的实时性高，因而对数据采用分布式的存储方式。

A kinetic energy data processing system and method based on spark computing framework

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark计算框架的动能数据处理系统及方法
本专利技术涉及对车间各类设备的动能数据处理
，具体涉及一种基于Spark计算框架的动能数据处理系统及方法。
技术介绍
卷烟厂动力车间设备会产生海量的动能数据，为了降低生产成本及提高生产质量，需要对这些动能数据进行采集、处理和分析。而在大数据技术的飞速增长过程中会有如下问题：（1）由于数据量的庞大以及需要对接多方位的系统数据，并不能很好的对这些数据进行采集；（2）大量的数据在传输过程中也会由于信道质量等多样性、复杂性、各种不确定的因素引入不满足质量要求的噪声数据，如异常、错误、重复以及缺失数据等，使得后续数据的分析环节的结果数据准确性降低；（3）终端可视化的数据检索实时性不高。针对上述问题，本专利技术建立了一个灵活可扩展的数据采集系统，在数据存储前采用基于Spark计算框架对数据进行清洗，并对处理后的数据采用分布式的存储方式，最终保证数据的完整性和可靠性。
技术实现思路
为了解决上述的技术问题，本专利技术的第一个目的是提供一种基于Spark计算框架的动能数据处理系统，该系统采用分布式的存储方式、具有灵活可扩展的数据采集系统，且能大大提高计算性能，本专利技术的第二个目的是提供一种基于Spark计算框架的动能数据处理方法。为了实现上述第一个目的，本专利技术采用了以下的技术方案：一种基于Spark计算框架的动能数据处理系统，包括数据采集模块、数据处理分析模块和数据存储模块；所述数据采集模块内置多个传感器节点，...

【技术保护点】
1.一种基于 Spark 计算框架的动能数据处理系统，其特征在于：包括数据采集模块、数据处理分析模块和数据存储模块；所述数据采集模块内置多个传感器节点，用来对MES、能管、动力集控、设备管理等各系统的数据的采集，以获取卷烟厂动力车间各类动能监测数据；所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块，根据应用场景对动能数据进行实时计算和离线分析；所述数据存储模块采用基于Spark 计算框架将清洗后的数据存于对应的数据库中。/n

【技术特征摘要】
1.一种基于Spark计算框架的动能数据处理系统，其特征在于：包括数据采集模块、数据处理分析模块和数据存储模块；所述数据采集模块内置多个传感器节点，用来对MES、能管、动力集控、设备管理等各系统的数据的采集，以获取卷烟厂动力车间各类动能监测数据；所述数据处理分析模块包括数据接入模块、数据缓存模块和实时计算模块，根据应用场景对动能数据进行实时计算和离线分析；所述数据存储模块采用基于Spark计算框架将清洗后的数据存于对应的数据库中。

2.根据权利要求1所述的一种基于Spark计算框架的动能数据处理系统，其特征在于：所述数据处理分析模块对进入Kafka的所有采集的数据采用各种方法进行数据的清洗，包括对数据依次进行重复值、错误值、异常值以及缺失值的清洗，为数据分析提供符合要求的基础数据。

3.根据权利要求1所述的一种基于Spark计算框架的动能数据处理系统，其特征在于：所述数据存储模块提高大数据存储与关系数据库相结合对原始数据、过程数据进行分布式文件存储的同时，将结果保存至关系型数据库Oracle中，并通过sqoop实现分布式文件系统与关系型数据库之间的数据传递。

4.一种基于Spark计算框架的动能数据处理方法，其特征在于：采用权利要求1至3中任意一项所述的处理系统，步骤如下：
步骤1：由无线传感器接收动能数据，对各动能设备的监控数据进行不同主题分区，利用kafka消息队列服务，将数据以流的形式发布至缓冲池；
步骤2：启动Kafka消息队列集群的用户接入功能，接入用户向系统发布的任务；
步骤3：构建包括消息生产者、消息缓存节点和消息消费者的Kafka集群，并对Kafka集群节点进行主题分区；
步骤4：由Kafka集群对消息队列中的数据进行协调服务，消息生产者对用户订阅的任务进行逻辑解析，并推送至Kafka集群节点的主题分区中缓...

【专利技术属性】
技术研发人员：叶志晖，王文娟，张成挺，钱杰，
申请(专利权)人：浙江中烟工业有限责任公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人