一种基于FLINK的数据处理方法和系统技术方案

技术编号:39309231 阅读:11 留言:0更新日期:2023-11-12 15:55
本申请实施例公开了一种基于FLINK的数据处理方法和系统,所述方法包括:获取用户输入的目标数据处理信息和任务调度信息;根据所述目标数据处理信息和任务调度信息生成解析器任务文件;将所述解析器任务文件基于ETL模块得到任务执行数据流;基于FLINK API中提供的接口根据任务执行数据流执行数据任务。提供自动基于FLINK数据任务生成与执行,统一任务定义规范和任务管理,减少了因针对处理各种数据源,不同数据流需要编写和管理繁杂、重复的数据处理脚本工作。据处理脚本工作。据处理脚本工作。

【技术实现步骤摘要】
一种基于FLINK的数据处理方法和系统


[0001]本申请实施例涉及数据处理
,具体涉及一种基于FLINK的数据处理方法和系统。

技术介绍

[0002]FLINK Apache Flink是一个开源的基于流的有状态计算框架,现有的FLINK计算框架没有提供界面化的数据处理任务定义功能,导致在处理数据时,需要针对数据来源、处理数据的特性(有界、无界数据流、结构化数据、非结构化数据等)和如何加工数据等不同场景编写定化、复用度低的可执行脚本和程序。同时,任务执行后使用者需要进入FLINK框架提供的页面查看任务执行情况。
[0003]整个使用过程对非技术人员或者不善于编写脚本或者程序的数据处理者不够友好,且不便于管理和提高数据处理效率,增加了使用者的投入成本。

技术实现思路

[0004]为此,本申请实施例提供一种基于FLINK的数据处理方法和系统,提供自动基于FLINK数据任务生成与执行,统一任务定义规范和任务管理,减少了因针对处理各种数据源,不同数据流需要编写和管理繁杂、重复的数据处理脚本工作。
[0005]为了实现上述目的,本申请实施例提供如下技术方案:
[0006]根据本申请实施例的第一方面,提供了一种基于FLINK的数据处理方法,所述方法包括:
[0007]获取用户输入的目标数据处理信息和任务调度信息;
[0008]根据所述目标数据处理信息和任务调度信息生成解析器任务文件;
[0009]将所述解析器任务文件基于ETL模块得到任务执行数据流;
>[0010]基于FLINK API中提供的接口根据任务执行数据流执行数据任务。
[0011]可选地,所述基于FLINK API中提供的接口根据任务执行数据流执行数据任务,包括:
[0012]基于FLINK API中提供的接口判断是否处于所述任务执行数据流中的执行时间范围内,若是,执行下一步;
[0013]按照设定数据处理规则设置任务执行数据流的参数,并将所述任务执行数据流提交到FLINK任务队列中执行。
[0014]可选地,所述ETL模块包括数据抽取模块、数据转换模块和数据加载模块;
[0015]将所述解析器任务文件基于ETL模块得到任务执行数据流,包括:
[0016]将所述解析器任务文件基于所述数据抽取模块抽取配置信息,并将所述配置信息进行数据抽取得到抽取数据流;
[0017]将所述抽取数据流基于所述数据转换模块进行数据清洗转换,得到转换数据流;
[0018]基于所述数据加载模块将转换数据流加载并存储为任务执行数据流。
[0019]可选地,所述解析器任务文件包括解析器数据文件和解析器时间文件;
[0020]根据所述目标数据处理信息和任务调度信息生成解析器任务文件,包括:
[0021]根据所述目标数据处理信息通过预设任务定义引擎生成JSON结构化的解析器数据文件;以及
[0022]根据所述任务调度信息通过预设任务调度执行引擎生成JSON结构化的解析器时间文件。
[0023]可选地,所述方法还包括:
[0024]系统日志中心实时获取所述任务执行数据流的运行信息,并将运行信息推送到监控中心,以供用户监控任务执行数据流的执行状态。
[0025]可选地,所述数据处理任务信息包括数据来源连接信息和数据处理信息;
[0026]所述数据来源包括文件传输协议文件、关系型数据库、数据湖仓和消息中间件;所述数据处理信息包括字段类型转换和数据清洗规则。
[0027]根据本申请实施例的第二方面,提供了一种基于FLINK的数据处理系统,所述系统包括:
[0028]任务获取模块,用于获取用户输入的目标数据处理信息和任务调度信息;
[0029]JSON引擎模块,用于根据所述目标数据处理信息和任务调度信息生成解析器任务文件;
[0030]ETL模块,用于将所述解析器任务文件基于ETL模块得到任务执行数据流;
[0031]任务执行模块,用于基于FLINK API中提供的接口根据任务执行数据流执行数据任务。
[0032]可选地,所述任务执行模块,具体用于:
[0033]基于FLINK API中提供的接口判断是否处于所述任务执行数据流中的执行时间范围内,若是,执行下一步;
[0034]按照设定数据处理规则设置任务执行数据流的参数,并将所述任务执行数据流提交到FLINK任务队列中执行。
[0035]根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
[0036]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
[0037]综上所述,本申请实施例提供了一种基于FLINK的数据处理方法和系统,通过获取用户输入的目标数据处理信息和任务调度信息;根据所述目标数据处理信息和任务调度信息生成解析器任务文件;将所述解析器任务文件基于ETL模块得到任务执行数据流;基于FLINK API中提供的接口根据任务执行数据流执行数据任务。提供自动基于FLINK数据任务生成与执行,统一任务定义规范和任务管理,减少了因针对处理各种数据源,不同数据流需要编写和管理繁杂、重复的数据处理脚本工作。
附图说明
[0038]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方
式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0039]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。
[0040]图1为本申请实施例提供的ETL模块框图;
[0041]图2为现有技术中基于FLINK的数据处理流程示意图;
[0042]图3为本申请实施例提供的一种基于FLINK的数据处理方法流程示意图;
[0043]图4为本申请实施例提供的基于FLINK的数据处理实施例示意图;
[0044]图5为本申请实施例提供的一种基于FLINK的数据处理系统框图;
[0045]图6示出了本申请实施例提供的一种电子设备的结构示意图;
[0046]图7示出了本申请实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
[0047]以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于FLINK的数据处理方法,其特征在于,所述方法包括:获取用户输入的目标数据处理信息和任务调度信息;根据所述目标数据处理信息和任务调度信息生成解析器任务文件;将所述解析器任务文件基于ETL模块得到任务执行数据流;基于FLINK API中提供的接口根据任务执行数据流执行数据任务。2.如权利要求1所述的方法,其特征在于,所述基于FLINK API中提供的接口根据任务执行数据流执行数据任务,包括:基于FLINK API中提供的接口判断是否处于所述任务执行数据流中的执行时间范围内,若是,执行下一步;按照设定数据处理规则设置任务执行数据流的参数,并将所述任务执行数据流提交到FLINK任务队列中执行。3.如权利要求1所述的方法,其特征在于,所述ETL模块包括数据抽取模块、数据转换模块和数据加载模块;将所述解析器任务文件基于ETL模块得到任务执行数据流,包括:将所述解析器任务文件基于所述数据抽取模块抽取配置信息,并将所述配置信息进行数据抽取得到抽取数据流;将所述抽取数据流基于所述数据转换模块进行数据清洗转换,得到转换数据流;基于所述数据加载模块将转换数据流加载并存储为任务执行数据流。4.如权利要求1所述的方法,其特征在于,所述解析器任务文件包括解析器数据文件和解析器时间文件;根据所述目标数据处理信息和任务调度信息生成解析器任务文件,包括:根据所述目标数据处理信息通过预设任务定义引擎生成JSON结构化的解析器数据文件;以及根据所述任务调度信息通过预设任务调度执行引擎生成JSON结构化的解析器时间文件。5.如权利要求1所述的方法,其特征在于,所述方法还包...

【专利技术属性】
技术研发人员:李浩
申请(专利权)人:特斯联科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1