当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向工业大数据的处理平台的构建方法技术

技术编号:32177511 阅读:14 留言:0更新日期:2022-02-08 15:38
本发明专利技术公开了一种面向工业大数据的处理平台的构建方法,包括如下步骤:步骤1:从多个数据源处获得工业大数据;步骤2:将获取的数据实时推送至基于Kafka实现的消息队列中,对获取到的数据进行预处理操作,实施设备数据预警;步骤3:基于Flink的数据处理池作为消息队列的消费者,即数据处理池可从消息队列中获取到数据;步骤4:对步骤3中从消息队列获取到的数据进行处理操作;步骤5:将处理过的数据结果分门别类地存放于数据池中;步骤6:利用Grafana连接器对步骤5数据池中的进行多样化展示,供客户对数据进行检索、查询。本发明专利技术综合运用6种大数据技术和工具,为工业大数据场景下的数据传输、处理、存储提供了可行解决方案,具有良好的性能优势。具有良好的性能优势。具有良好的性能优势。

【技术实现步骤摘要】
一种面向工业大数据的处理平台的构建方法


[0001]本专利技术涉及工业大数据
,尤其是一种面向工业大数据的处理平台的构建方法。

技术介绍

[0002]工业大数据是企业生产力、竞争力的关键要素。但目前,由于工业大数据的数据特性各异,面向工业大数据处理平台的构建方法、体系架构、具体实现技术等也差异性较大,没有统一的解决方案。其中,一些解决方案往往采用单一的大数据技术,存在明显的局限性,例如:采用Storm框架实现的工业大数据处理平台,往往只支持纯实时的场景,在对工业大数据批处理的吞吐量较低;基于Apache Spark框架的解决方案,其更适用于处理一段时间内的批量数据,对实时工业大数据的处理则延迟性较高。在工业大数据场景下,实时数据、批数据、历史数据均存在,缺乏综合性的技术体系和完善的大数据生态的处理功能,易导致工业大数据平台的数据处理效率低,运维成本高。另外,现有的数据处理平台,依然缺少适用于工业大数据处理,特别是流数据处理的方法,使得用户难以及时对工业大数据进行分析。

技术实现思路

[0003]本专利技术提出一种面向工业大数据的处理平台的构建方法,综合运用了Kafka、Flink、IoTDB、OrientDB、MySQL、Grafana这6种大数据工具,构建了消息队列、数据处理池和数据存储池3个关键组成部分,实现了对工业大数据的传递、分析和存储的全流程,大大地提高了数据处理的效率。
[0004]本专利技术提供一种面向工业大数据的处理平台的构建方法,具体包括如下步骤:
[0005]步骤1:从多个数据源处获得工业大数据;
[0006]步骤2:将获取的数据实时推送至基于Kafka实现的消息队列中,使这些数据作为消息队列的生产者;在该消息队列中,对获取到的数据进行预处理操作,对各个数据序列排序、分配主题;实施设备数据预警,即确定各个工业设备相应的阈值,当相关数据超过这个阈值时,消息队列自动发出提醒;
[0007]步骤3:基于Flink的数据处理池作为消息队列的消费者,即数据处理池可从消息队列中获取到数据;
[0008]步骤4:对步骤3中从消息队列获取到的数据进行处理操作;
[0009]步骤5:将处理过的数据结果分门别类地存放于数据池中;
[0010]步骤6:利用Grafana连接器对步骤5数据池中的进行多样化展示,供客户对数据进行检索、查询。
[0011]优选的,步骤1中,从多个数据源处获得工业大数据具体为:(a)通过物联网、传感器获得的设备运行数据和系统实时事件监控数据;(b)通过第三方消息队列、应用系统和数据库获得的相关业务数据。
[0012]优选的,步骤4中,对步骤3中从消息队列获取到的数据进行处理操作包括4类主要操作:对重复数据、无效数据进行删除;实现数据的聚合操作;基于统计方法、机器学习算法对工业大数据开展数据分析;复杂事件处理。
[0013]优选的,统计方法的数据分析包括:Kolmogorov

Smirnov检验、Lilliefors检验、Bayesian检验、Simple t检验、Regression检验;基于机器学习算法的数据分析包括:随机森林异常检测算法、Apriori算法和分类回归树算法。
[0014]优选的,步骤5中,数据池由多模数据库OrientDB、时间序列数据库IoTDB和关系数据库MySQL组成,存储不同类型的数据,并且数据存储池可以继续扩增新的数据库类型,以存储更多不同数据模式的数据。
[0015]本专利技术的有益效果为:对于工业大数据的处理,综合运用了Kafka、Flink、IoTDB、OrientDB、MySQL、Grafana这6种大数据工具,构建了消息队列、数据处理池和数据存储池3个关键组成部分。该平台既能处理工业大数据背景下的批数据,又可以处理流数据,极大地解决了工业大数据处理困难的问题。此外,将批数据和流数据分门别类地存放在数据池中,更有效地对数据进行管理;基于Kafka的消息管道临时存放数据,更好地提高了扩展性,以及保证数据处理的顺序性;在方法应用前,对数据进行预处理,提高了方法的应用效率。Grafana连接器作为新型的可视化工具,适用于多个数据库,也能极清晰地表达出数据地变化,同时也能够对数据进行分析并进行监测,适用于工业背景的使用。
附图说明
[0016]图1为本专利技术的工业大数据体系结构示意图。
具体实施方式
[0017]一种面向工业大数据的处理平台的构建方法,包括如下步骤:
[0018]步骤1:从多个数据源处获得工业大数据,包括:(1)通过物联网、传感器获得的设备运行数据和系统实时事件监控数据,以及(2)通过第三方消息队列、应用系统和数据库获得的相关业务数据。
[0019]步骤2:由于数据源多样化,若直接使用对数据进行处理,会产生各种问题。因此,将获取的数据发送基于Kafka实现的消息队列中,使这些数据作为消息队列的生产者(Producer);在消息队列中,对获取到的数据进行预处理操作,主要是对各个数据序列排序、分配主题。同时,还能对设备数据进行预警,即只要确定设备相应的阈值,当相应数据超过这个阈值时自动提醒。
[0020]步骤3:基于Flink的数据处理池作为消息队列的消费者(Consumer),即数据处理池可从消息队列中获取到数据;
[0021]步骤4:将步骤3中获取到的数据进行处理操作,主要包括4类主要操作:对重复数据、无效数据进行删除;实现数据的聚合操作;基于统计方法、机器学习算法对工业大数据做分析;复杂事件处理。其中,统计方法的数据分析包括:Kolmogorov

Smirnov检验、Lilliefors检验、Bayesian检验、Simple t检验、Regression检验;基于机器学习算法的数据分析包括:随机森林异常检测算法、Apriori算法和分类回归树算法。上述数据分析方法均基于Flink自主实现,是面向工业大数据场景中的流数据的计算方法。
[0022]对于无效数据、重复数据的删除,实现细节描述如下:首先,开启Flink自带的RocksDB状态后端并对其参数进行配置,如数据过期的时间、是否过期的数据能再次被访问等,接着注册Flink定时器。也可以利用Flink的TTL机制,打开RocksDB状态后端的TTL compaction filter,能在后台实现重复数据的自动删除。进一步,利用Flink DataStream API的Evictor()方法对WindowFunction前后的数据进行处理,实现对无效数据的删除。Evictor()方法包括CountEvictor、DeltaEvictor和TimeEvictor以及自定义的Evictor,对数量、时间或阈值进行限制去除差异较大的无效数据。在处理完重复、无效数据基础上,利用预先定义的函数aggregations中的sum()、min()、max()方法对批数据进行统计,求出工业数据的最大值、最小值、总和,实现数据的聚合操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向工业大数据的处理平台的构建方法,其特征在于,包括如下步骤:步骤1:从多个数据源处获得工业大数据;步骤2:将获取的数据实时推送至基于Kafka实现的消息队列中,使这些数据作为消息队列的生产者;在该消息队列中,对获取到的数据进行预处理操作,对各个数据序列排序、分配主题;实施设备数据预警,即确定各个工业设备相应的阈值,当相关数据超过这个阈值时,消息队列自动发出提醒;步骤3:基于Flink的数据处理池作为消息队列的消费者,即数据处理池可从消息队列中获取到数据;步骤4:对步骤3中从消息队列获取到的数据进行处理操作;步骤5:将处理过的数据结果分门别类地存放于数据池中;步骤6:利用Grafana连接器对步骤5数据池中的进行多样化展示,供客户对数据进行检索、查询。2.如权利要求1所述的面向工业大数据的处理平台的构建方法,其特征在于,步骤1中,从多个数据源处获得工业大数据具体为:(a)通过物联网、传感器获得的设备运行数据和系统实时事件监控数据;(b)通过第三方消息队列、应用系统和数据库获得...

【专利技术属性】
技术研发人员:叶枫赵润发娄渊胜
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1