一种基于多类型设备的大数据处理方法、系统及可读介质技术方案

技术编号:32510675 阅读:28 留言:0更新日期:2022-03-02 10:54
本发明专利技术公开了一种基于多类型设备的大数据处理方法、系统及可读介质,通过构建以ETL层、服务层和存储层组成的大数据平台,ELT层包括数据采集模块和数据支撑模块,服务层包括Stream模块、批处理模块和GPU资源模块,存储层包括分布式存储模块,将原始数据通过数据清洗管道流入大数据集群或存储层,通过Stream模块对原始数据中的实时数据进行消费和实时计算,通过批处理模块对原始数据中的离线数据进行数据清洗;最后存储在分布式存储模块,并结合数据支撑模块实现数据的分类和发布。该方法能够让感知设备回传的复杂数据治理过程具备可编程性、可扩展性,彻底解决了抽水蓄电站基建现场数据难管理、难计算和使用率低下的问题。难计算和使用率低下的问题。难计算和使用率低下的问题。

【技术实现步骤摘要】
一种基于多类型设备的大数据处理方法、系统及可读介质


[0001]本专利技术涉及大数据领域,具体涉及一种基于多类型设备的大数据处理方法、系统及可读介质。

技术介绍

[0002]近年来物联网设备的不断普及,越来越多的数据被生产和采集。尤其是在抽水蓄能电站的基建现场,物联网感知设备所产生的数据开始不断膨胀,数据种类增多,数据复杂度变高,这既让基建现场的维护面临前所未有的挑战,同时也迎来了巨大的机遇。所以如何能够低延时,高效率地收集和使用这些数据成为当下广收关注的问题。需要一个能够进行标准化数据采集,复杂协议解析,数据海量运算,数据分布式存储和深层知识生成的多功能大数据平台。
[0003]针对抽水蓄能电站的基建现场的物联网设备所采集到的数据及计算存在以下问题。数据采集的种类较多,协议复杂,需要一个兼具通用性和专业性,且能够完成工作流任务和数据流任务的框架。实时数据要求响应速度快,可以完成实时报表和基于复杂逻辑的实时运算任务。分布式计算需要能够满足海量数据的可计算需求,并能够在至多T+1的周期内完成数据的计算。离线数据存量巨大,种类繁多,需要能够本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多类型设备的大数据处理方法,其特征在于,包括以下步骤:构建大数据平台,所述大数据平台包括ETL层、服务层和存储层,所述ELT层包括数据采集模块和数据支撑模块,所述服务层包括Stream模块、批处理模块和GPU资源模块,所述存储层包括分布式存储模块,所述数据采集模块用于采集原始数据;将所述原始数据通过数据清洗管道流入大数据集群或所述存储层,其中,通过所述Stream模块对所述原始数据中的实时数据进行消费和实时计算,通过所述批处理模块对所述原始数据中的离线数据进行数据清洗;将采集到的原始数据、计算产生的中间数据及结果数据存储在所述分布式存储模块,并结合所述数据支撑模块实现数据的分类和发布。2.根据权利要求1所述的基于多类型设备的大数据处理方法,其特征在于,所述数据采集模块的构建具体包括:采用ApacheNifi作为所述数据采集模块的主要框架,在两台以上的服务器上进行搭建,并构建工具流和数据流;所述数据采集模块通过外部实时数据的对接、外部数据下载和/或数据库对接的方式获取结构化数据和非结构化数据,所述结构化数据包括所述实时数据和所述离线数据,所述非结构化数据存储在所述GPU资源模块,为模型训练提供物料,所述数据采集模块采集的原始数据类型包括FTP数据、协议接口数据、日志数据和/或消息队列数据。3.根据权利要求2所述的基于多类型设备的大数据处理方法,其特征在于,使用CDH搭建大数据集群,其中通过Hue可视化和Oozie调度器的组合完成所述工作流的构建,所述工作流用来驱动所述Stream模块和所述批处理模块中的组件对所述原始数据进行清洗和持久化,并通过ETL工具完成所述数据支撑模块的构建。4.根据权利要求2所述的基于多类型设备的大数据处理方法,其特征在于,所述分布式存储模块的构建具体包括:采用Hive与Parquet结合的方式存储所述结构化数据;采用Elasticsearch存储所述非结构数据;采用Hbase存储拥有唯一标识的多维度设备数据;搭建Kafka作为实时数据存储框架;搭建Hive和Yarn作为离线数据...

【专利技术属性】
技术研发人员:邱伟黄文龙叶杰琛黄建榮林观辉王顺超韩东兴郭坤阳杨振亚南颖马方远王军
申请(专利权)人:国网新源控股有限公司福建厦门抽水蓄能有限公司国网信息通信产业集团有限公司北京国电通网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1