System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种工业大数据处理方法技术_技高网

一种工业大数据处理方法技术

技术编号:39938854 阅读:5 留言:0更新日期:2024-01-08 22:24
本发明专利技术公开了一种工业大数据处理方法,涉及数据处理技术领域,本发明专利技术包括数据获取、数据入库、数据处理、数据存储、数据分析、数据交付、数据访问,通过流批一体的数据仓库的实时数据处理能力,可以使数据在几秒钟内就能够被提取、处理和分析,让企业能够更加及时地做出决策,既满足了实时数据处理延时分钟甚至秒级的延时需求,又兼顾了像离线数仓那样的数据可靠性,历史数据采用副本以及分区机制,兼顾实时分析和历史回溯的秒级查询分析,支持多种平台,提供强大的数据存储和管理功能,并使用了一种高效的数据存储和查询引擎,可快速存储和查询大量的结构化和非结构化数据,进而提供更高效的数据处理能力。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种工业大数据处理方法


技术介绍

1、随着数据处理技术的发展,离线数据和实时数据也可以进行统一处理。与传统的批处理数据仓库不同,流批一体的数据仓库具有实时数据处理能力,可以使数据在几秒钟内就能够被提取、处理和分析,让企业能够更加及时地做出决策。不需要单独的批处理系统,维护和管理数据仓库的成本低于lambda架构,流批集成数据仓库可以根据业务需求轻松扩展,包括处理大量数据的能力,流批一体化数据仓库具有实时处理能力,可以提供比lambda架构t+1的模式数据仓库更低的延迟,数据结构的展现低至分钟级别的延时,在同类型数据处理技术中,做好离线数据和实时数据的无缝集成是数据处理的关键和核心,其决定了数据处理技术趋势的走向,因此对离线数据和实时数据的无缝集成进行分析十分的重要。

2、目前公司使用kappa架构,通过使用流处理引擎在消息中间件中构建流批一体数仓,很显然这种分析方式存在以下几个问题:

3、1、当前kappa架构的消息中间件缓存的数据量和回溯数据有性能瓶颈,通常无法长期保存原始数据,没有将消息中间件仅作为数据缓冲,存储历史数据,并没有历史数据将落盘至olap型数据库中,同时未提供即席查询和回溯历史数据的能力,无法实现数据的实时分析和决策,存在数据丢失的问题,没有依托mpp架构数据库,在一定程度上降低了关联性的性能。

4、2、当前kappa抛弃了离线数据处理模块的时候,同时抛弃了离线计算稳定可靠的特点,不能同时处理流处理数据和批处理数据,不能实现实时的数据加载和查询,无法支持将实时流处理数据与离线批处理数据无缝集成,也无法提供一致的查询接口和分析能力,未采用定时调度进而无法保障数据处理流程延时低至分钟级别,同时未采用分布式架构,从而不支持弹性扩展,组件架构不够简洁高效,也不便于后期维护。


技术实现思路

1、针对上述存在的技术不足,本专利技术的目的是提供一种工业大数据处理方法。

2、为解决上述技术问题,本专利技术采用如下技术方案:本专利技术提供一种工业大数据处理方法,该方法包括以下步骤:步骤一,数据获取:流批一体实时数仓在货仓零售平台的业务库数据、实时数据库和日志服务器获取货仓零售的业务数据、实时数据和日志数据,根据不同方法将货仓零售的业务数据、实时数据和日志数据传输至kafka平台;

3、步骤二、数据入库:流批一体实时数仓将kafka平台中货仓零售的实时数据、数据表数据和日志数据导入对应的ods原始数据层的各数据表;

4、步骤三、数据处理:流批一体实时数仓在货仓零售的ods原始数据层获取各数据表,并对ods原始数据层的各数据表进行数据分层处理;

5、步骤四、数据存储:流批一体实时数仓获取经过数据分层处理后的各数据表,并将各数据表存储在分布式列式存储引擎中,得到压缩数据,进而对压缩数据进行查询处理分析;

6、步骤五、数据分析:流批一体实时数仓在货仓零售平台获取货仓零售的各业务需求,根据货仓零售的各业务需求olap数据库对数据表模型进行分析,并对数据处理流程数据结构展现的延迟进行降低;

7、步骤六、数据交付:流批一体实时数仓将olap数据库对数据表模型进行分析后的数据交付给用户;

8、步骤七、数据访问:用户通过各种工具访问数据和各种服务接口访问数据。

9、优选地,所述根据不同方法将货仓零售的业务数据、实时数据和日志数据传输至kafka平台,具体传输过程如下:

10、a1、实时数据库通过订阅的方法,将货仓零售实时数据推送至kafka平台;

11、a2、业务数据库通过cdc变更数据捕获的方式监控变更为数据表数据,将货仓零售的实时同步数据至kafka平台;

12、a3、日志服务器通过服务,将货仓零售日志数据发送至kafka平台。

13、优选地,所述将kafka平台中货仓零售的实时数据、数据表数据和日志数据导入对应的ods原始数据层的各数据表,具体导入过程如下:

14、使用olap数据库的routineload定期加载功能,将kafka平台中货仓零售的实时数据、数据表数据和日志数据自动整合导入对应的ods原始数据层的各数据表。

15、优选地,所述对ods原始数据层的各数据表进行数据分层处理,具体处理过程如下:

16、b1、将ods原始数据层的数据通过提取、转换和加载写入dwd明细数据层,用于存放源系统数据的详细信息;

17、b2、根据货仓零售业务将数据分为客户主题、产品主题、时间主题和事实主题,并将各主题加载至dws主题数据层;

18、b3、将ods原始数据层的数据通过清洗、转换和汇总得到高质量数据,将高质量数据写入ads业务数据层;

19、b4、进行ods原始数据层、dwd明细数据层、dws主题数据层和ads业务数据层之间的数据流转任务。

20、优选地,所述进行ods原始数据层、dwd明细数据层、dws主题数据层和ads业务数据层之间的数据流转任务,具体进行过程如下:

21、ods原始数据层、dwd明细数据层、dws主题数据层和ads业务数据层之间的数据流转任务通过标准sql编写、兼容msql协议和调度引擎分钟级调度。

22、优选地,所述对压缩数据进行查询处理分析,具体分析过程如下:

23、olap数据库整体架构包括frontend前端和backend后端两类进程,其中由frontend前端进行用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作;由backend后端进行数据存储、查询计划的执行;在查询引擎中使用mpp架构的模型,使节点间和节点内并行执行,并使用多个大表的分布

24、优选地,所述根据货仓零售的各业务需求olap数据库对数据表模型进行分析,具体分析过程如下:

25、c1、根据mpp架构、olap数据库提供的内置数据分析能力和货仓零售的各业务需求,数据表模型提供明细模型、主键模型和聚合模型;明细模型为olap数据库中最基本的模型,主键模型和聚合模型是在明细模型基础上建立的模型;

26、c2、当需要对数据进行详细分析和挖掘,要求存储所有的原始数据,并且保留数据的所有细节时,使用明细模型;

27、c3、当需要在多个数据表之间进行关联分析,并需要使用主键来标识和连接不同的数据表,进行便捷的数据关联和查询时,使用主键模型;

28、c4、当需要对大量数据进行快速查询和分析,并需要通过对数据进行聚合和压缩,进而完成查询和分析时,使用聚合模型。

29、优选地,所述对数据处理流程数据结构展现的延迟进行降低,具体过程如下:当需要降低数据处理流程数据结构展现的延迟时,流批一体化数据仓库采用定时调度和实时处理对数据进行摄取。

30、本专利技术的有益效果在于:1、本专利技术提供的一种工业大数据处理方法通过流批一体的数据仓库的实时数据处理能力本文档来自技高网...

【技术保护点】

1.一种工业大数据处理方法,其特征在于,包括:

2.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述根据不同方法将货仓零售的业务数据、实时数据和日志数据传输至Kafka平台,具体传输过程如下:

3.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述将Kafka平台中货仓零售的实时数据、数据表数据和日志数据导入对应的ODS原始数据层的各数据表,具体导入过程如下:

4.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述对ODS原始数据层的各数据表进行数据分层处理,具体处理过程如下:

5.根据权利要求4所述的一种工业大数据处理方法,其特征在于,所述进行ODS原始数据层、DWD明细数据层、DWS主题数据层和ADS业务数据层之间的数据流转任务,具体进行过程如下:

6.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述对压缩数据进行查询处理分析,具体分析过程如下:

7.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述根据货仓零售的各业务需求OLAP数据库对数据表模型进行分析,具体分析过程如下:

8.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述对数据处理流程数据结构展现的延迟进行降低,具体过程如下:

...

【技术特征摘要】

1.一种工业大数据处理方法,其特征在于,包括:

2.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述根据不同方法将货仓零售的业务数据、实时数据和日志数据传输至kafka平台,具体传输过程如下:

3.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述将kafka平台中货仓零售的实时数据、数据表数据和日志数据导入对应的ods原始数据层的各数据表,具体导入过程如下:

4.根据权利要求1所述的一种工业大数据处理方法,其特征在于,所述对ods原始数据层的各数据表进行数据分层处理,具体处理过程如下:

5.根据权利要...

【专利技术属性】
技术研发人员:刘鑫鑫
申请(专利权)人:上海麦杰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1