基于大数据平台的管道泄漏辅助检测系统技术方案

技术编号:21885539 阅读:98 留言:0更新日期:2019-08-17 12:16
本发明专利技术提供一种基于大数据平台的管道泄漏辅助检测系统,包括基于Hadoop的HA部署模式下的集群,以及处理大规模数据计算引擎Spark,针对所采集到的历史数据和实时数据,运用朴素贝叶斯算法,进行离线数据的训练学习和实时数据的预测分析,以便辅助液体管道运输中的泄漏检测。本发明专利技术提供的辅助检测系统实时地从采集点快速采集数据,再进行实时的在线分析与计算,以能够及时发现管道泄漏状况,进而及时报警。本发明专利技术提供的技术方案基于积累的历史数据,进行离线分析与建模,实现工况的识别和监测,为泄漏检测提供辅助依据。而且,本发明专利技术提供的技术方案运用朴素贝叶斯算法区分工况与管道泄漏,降低了误报率。

Pipeline Leakage Assistant Detection System Based on Big Data Platform

【技术实现步骤摘要】
基于大数据平台的管道泄漏辅助检测系统
本专利技术涉及管道泄漏检测的
,尤其涉及一种基于大数据平台的管道泄漏辅助检测系统。
技术介绍
随着石油管道输送工业的发展及管道泄漏事故频发造成的严重影响,管道泄漏检测技术得到了广泛的关注和研究。现有的管道泄漏检测方法很多,包括基于硬件、软件以及软硬件结合的方法,还有基于模型和非模型的方法。工况调节带来的压力波动与泄漏引起的压力波动极为相似,导致多工况下的泄漏检测变得更复杂。为了降低工况调节带来的误报率,提高检测的准确性,前人已从多方面展开研究工作:依据综合压力、流量信号的不同变化,进行工况识别和泄漏检测;通过提取压力信号的特征参数,运用模糊分类的方法实现工况调节与管道泄漏的区分;将动态压力信号相邻区间的特征差分值作为神经网络的输入来提高泄漏检测的工况适应性。上述方法在稳定的现场实验条件下取得了较好的检测效果,但是往往没有考虑到工况调节带来的影响。
技术实现思路
为解决现有技术存在的局限和缺陷,本专利技术提供一种基于大数据平台的管道泄漏辅助检测系统,包括大数据批处理框架和大数据流计算框架,所述大数据批处理框架包括Hadoop架构的MapReduce模块,所述大数据批处理框架设置有基于HDFS和MapReduce的Hive模块,所述Hive模块为大数据的批处理提供接口,所述大数据批处理框架设置有SparkSQL模块,所述SparkSQL模块用于实现基于数据库查询语言的大数据离线批处理;所述大数据流计算框架包括Spark引擎的SparkStreaming模块,所述SparkStreaming模块用于对输入的数据流进行分割形成为Micro-Batches,对分割形成的Micro-Batches进行处理;所述辅助检测系统还包括数据采集层、ZooKeeper模块、数据访问层和HDFS分布式文件系统;所述ZooKeeper模块用于协调调度所述辅助检测系统的各个模块;所述数据采集层的Flume模块和Kafaka模块用于采集历史数据和实时数据,而且将所述历史数据和所述实时数据传输至所述HDFS分布式文件系统;所述HDFS分布式文件系统用于存储所述历史数据和所述实时数据;所述SparkStreaming模块用于根据朴素贝叶斯算法进行离线数据的训练学习和实时数据的预测分析;所述数据访问层用于显示分析结果,根据所述分析结果对管道泄漏状况进行判断。可选的,所述Flume模块还用于将所述历史数据和所述实时数据传递给所述Kafaka模块;所述Kafaka模块还用于将所述历史数据和所述实时数据存储至HBASE模块。可选的,所述HBASE模块是基于HDFS的面向海量结构化、半结构化数据的分布式NoSQL列式数据库。可选的,所述Spark引擎用于接收来自于Kafaka模块的数据流,所述SparkStreaming模块用于进行在线的实时分析,而且定期读取所述HBASE模块之中的历史数据,进行离线的分析和建模。可选的,还包括MySQL数据库,所述MySQL数据库用于存储实时分析的报警数据和离线分析的数据。可选的,所述数据访问层的前端界面用于从所述HBASE模块之中读取实时数据,还用于从所述MySQL数据库之中读取离线分析结果和报警信息,进行可视化和报警。本专利技术具有下述有益效果:本专利技术提供一种基于大数据平台的管道泄漏辅助检测系统,包括基于Hadoop的HA部署模式下的集群,以及处理大规模数据计算引擎Spark,针对所采集到的历史数据和实时数据,运用朴素贝叶斯算法,进行离线数据的训练学习和实时数据的预测分析,以便辅助液体管道运输中的泄漏检测。本专利技术提供的辅助检测系统实时地从采集点快速采集数据,再进行实时的在线分析与计算,以能够及时发现管道泄漏状况,进而及时报警。本专利技术提供的技术方案基于积累的历史数据,进行离线分析与建模,实现工况的识别和监测,为泄漏检测提供辅助依据。而且,本专利技术提供的技术方案运用朴素贝叶斯算法区分工况与管道泄漏,降低了误报率。附图说明图1为本专利技术实施例一提供的大数据平台架构图。图2为本专利技术实施例一提供的数据流程示意图。图3为本专利技术实施例一提供的HA集群示意图。图4为本专利技术实施例一提供的Spark框架示意图。图5为本专利技术实施例一提供的调阀状态压力变化示意图。图6为本专利技术实施例一提供的泄漏状态压力变化示意图。图7a为本专利技术实施例一提供的正常状态压力的时域示意图。图7b为本专利技术实施例一提供的正常状态压力的频域示意图。图8a为本专利技术实施例一提供的泄漏状态压力的时域示意图。图8b为本专利技术实施例一提供的泄漏状态压力的频域示意图。具体实施方式为使本领域的技术人员更好地理解本专利技术的技术方案,下面结合附图对本专利技术提供的基于大数据平台的管道泄漏辅助检测系统进行详细描述。实施例一在Hadoop出现之前,高性能计算和网格计算一直是处理大数据问题主要的使用方法和工具,它们主要采用消息传递接口(MessagePassingInterface,MPI)提供的API来处理大数据。高性能计算的思想是将计算作业分散到集群机器上,集群计算节点访问存储区域网络(StorageAreaNetwork,SAN)构成的共享文件系统获取数据,这种设计比较适合计算密集型作业。当需要访问PB级别的数据的时候,由于存储设备网络带宽的限制,很多集群计算节点只能空闲等待数据。Hadoop却不存在这种问题,由于Hadoop使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,就可以在存储节点上完成数据本地化计算,Hadoop的集群存储节点也是计算节点。在分布式编程方面,MPI属于比较底层的开发库,它赋予了程序员极大的控制能力,但是却要求程序员自己控制程序的执行流程、容错功能,甚至底层的套接字通信、数据分析算法等底层细节都需要自己编程实现。这种要求无疑对开发分布式程序的程序员提出了较高的要求。相反,Hadoop的MapReduce却是一个高度抽象的并行编程模型,它将分布式并行编程抽象为两个原语操作,即map操作和reduce操作,开发人员只需要简单地实现相应的接口即可,完全不用考虑底层数据流、容错、程序的并行执行等细节,这种设计无疑大大降低了开发分布式并行程序的难度。近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点。早几年国内外研究者和业界比较关注的是在Hadoop平台上的并行化算法设计。然而,HadoopMapReduce平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法。随着UCBerkeleyAMPLab推出的新一代大数据平台Spark系统的出现和逐步发展成熟,它拥有HadoopMapReduce的优点,但是不同于MapReduce的是Job中间输出结果可以保存在内存之中,从而不再需要读写HDFS,因此Spark的性能较HadoopMapReduce有显著的提升。针对已保存在HDFS上的数据,Spark提供了SparkSQL实现基于数据库查询语言的大数据离线批处理。Spark原生地由Scala开发,其程序代码的复杂度与Java开发的同功能的MapReduce程序相比十分简洁。Spark还支持Python、Java、R等编程语言。根据目前的本文档来自技高网...

【技术保护点】
1.一种基于大数据平台的管道泄漏辅助检测系统,其特征在于,包括大数据批处理框架和大数据流计算框架,所述大数据批处理框架包括Hadoop架构的MapReduce模块,所述大数据批处理框架设置有基于HDFS和MapReduce的Hive模块,所述Hive模块为大数据的批处理提供接口,所述大数据批处理框架设置有SparkSQL模块,所述SparkSQL模块用于实现基于数据库查询语言的大数据离线批处理;所述大数据流计算框架包括Spark引擎的Spark Streaming模块,所述Spark Streaming模块用于对输入的数据流进行分割形成为Micro‑Batches,对分割形成的Micro‑Batches进行处理;所述辅助检测系统还包括数据采集层、ZooKeeper模块、数据访问层和HDFS分布式文件系统;所述ZooKeeper模块用于协调调度所述辅助检测系统的各个模块;所述数据采集层的Flume模块和Kafaka模块用于采集历史数据和实时数据,而且将所述历史数据和所述实时数据传输至所述HDFS分布式文件系统;所述HDFS分布式文件系统用于存储所述历史数据和所述实时数据;所述Spark Streaming模块用于根据朴素贝叶斯算法进行离线数据的训练学习和实时数据的预测分析;所述数据访问层用于显示分析结果,根据所述分析结果对管道泄漏状况进行判断。...

【技术特征摘要】
1.一种基于大数据平台的管道泄漏辅助检测系统,其特征在于,包括大数据批处理框架和大数据流计算框架,所述大数据批处理框架包括Hadoop架构的MapReduce模块,所述大数据批处理框架设置有基于HDFS和MapReduce的Hive模块,所述Hive模块为大数据的批处理提供接口,所述大数据批处理框架设置有SparkSQL模块,所述SparkSQL模块用于实现基于数据库查询语言的大数据离线批处理;所述大数据流计算框架包括Spark引擎的SparkStreaming模块,所述SparkStreaming模块用于对输入的数据流进行分割形成为Micro-Batches,对分割形成的Micro-Batches进行处理;所述辅助检测系统还包括数据采集层、ZooKeeper模块、数据访问层和HDFS分布式文件系统;所述ZooKeeper模块用于协调调度所述辅助检测系统的各个模块;所述数据采集层的Flume模块和Kafaka模块用于采集历史数据和实时数据,而且将所述历史数据和所述实时数据传输至所述HDFS分布式文件系统;所述HDFS分布式文件系统用于存储所述历史数据和所述实时数据;所述SparkStreaming模块用于根据朴素贝叶斯算法进行离线数据的训练学习和实时数据的预测分析;所述数据访问...

【专利技术属性】
技术研发人员:卢罡于洋
申请(专利权)人:北京化工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1