针对大数据任务的实现方法、装置、设备及存储介质制造方法及图纸

技术编号:37541817 阅读:15 留言:0更新日期:2023-05-12 16:10
本说明书涉及大数据处理技术领域,提供了一种针对大数据任务的实现方法、装置、设备及存储介质,该方法包括:确定目标应用场景所需的数据任务类型及其依赖关系;基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务;根据所述依赖关系将各个所述数据任务进行关联,形成大数据工作流;采集所述目标应用场景的源数据,并调用所述大数据工作流处理所述源数据。通过本说明书实施例可以提高大数据任务平台的通用性,降低大数据任务平台的开发成本。发成本。发成本。

【技术实现步骤摘要】
针对大数据任务的实现方法、装置、设备及存储介质


[0001]本说明书涉及大数据处理
,尤其是涉及一种针对大数据任务的实现方法、装置、设备及存储介质。

技术介绍

[0002]随着大数据技术的发展,大数据覆盖的领域和功能也越来越多,伴随而来的就是各种领域里针对数据功能的各种大数据任务的增多。
[0003]大数据任务通常可以包括ETL任务、SQL任务、流式任务、报表任务、监控任务、特征指标分析任务,机器学习任务等。在不同的应用场景下,这些任务的开发相对独立,实现方式和开发语言往往会有很大不同,从而容易衍生出诸多专用平台,例如AI平台,机器学习平台,离线数据平台,实时数据平台等等。每个专用平台都是针对特定应用场景,各个专用平台交互都需要人为干预,数据血缘混乱,导致问题归因困难。由于针对特定应用场景开发的专用平台,在其他应用场景下也难以适用,使得大数据任务平台的开发成本居高不下。

技术实现思路

[0004]本说明书实施例的目的在于提供一种针对大数据任务的实现方法、装置、设备及存储介质,以提高大数据任务平台的通用性,降低大数据任务平台的开发成本。
[0005]为达到上述目的,一方面,本说明书实施例提供了一种针对大数据任务的实现方法,包括:
[0006]确定目标应用场景所需的数据任务类型及其依赖关系;
[0007]基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务;
[0008]根据所述依赖关系将各个所述数据任务进行关联,形成大数据工作流;
[0009]采集所述目标应用场景的源数据,并调用所述大数据工作流处理所述源数据。
[0010]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括ETL任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0011]形成元数据识别器、规则钩子函数和ETL工具;其中,
[0012]所述元数据识别器用于将指定的数据源表的数据进行解析,并调用所述规则钩子函数将解析后的数据映射为ETL参数;
[0013]所述ETL工具用于将所述ETL参数进行ETL处理,并将处理结果写入指定的写入表。
[0014]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括SQL任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0015]形成SQL解析器,所述SQL解析器用于对指定的数据源表进行SQL解析,并通过关联或聚合的方式将解析结果写入指定的写入表,以构建所述数据源表和所述写入表之间的依赖关系。
[0016]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括流式任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0017]形成实时计算引擎,所述实时计算引擎用于将流式数据转换为json数据,利用所述json数据的schema构建流式表,对所述流式表进行实时计算并将计算结果写入指定的实体表。
[0018]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括机器学习任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0019]形成基于MapReduce模型或Spark模型构建的机器学习任务架构,所述机器学习任务架构用于将指定的数据源表的数据读取和分发固定在本架构内,提供确定的数据结构给基于Python编码的机器学习代码计算,并将结果写入指定的写入表。
[0020]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括特征指标分析任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0021]形成MapReduce模型,所述MapReduce模型用于在Map阶段将指定的数据源表的同一字段输出到同一个Reduce中,在Reduce阶段使同一个Reduce对同一列数据进行分箱,将分箱结果按配置进行特征指标计算,并将分箱结果和计算出的特征指标值写入指定的写入表。
[0022]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括报表任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0023]形成BI分析工具和以图表表征的用户界面模板,所述BI分析工具用于调度BI任务,解析所述BI任务的任务逻辑和任务依赖关系,基于所述任务依赖关系从指定的数据源表获取数据,按照所述任务逻辑处理数据,将处理结果写入所述用户界面模板,以生成图表,输出所述图表。
[0024]本说明书实施例的针对大数据任务的实现方法中,当目标应用场景所需的数据任务类型包括监控任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:
[0025]形成监控逻辑,所述监控逻辑用于将获取的监控数据处理成数据表,识别所述数据表中触碰监控规则的数据并写入指定的写入表,并以所述写入表的结果进行告警。
[0026]另一方面,本说明书实施例还提供了一种针对大数据任务的实现装置,包括:
[0027]参数确定模块,用于确定目标应用场景所需的数据任务类型及其依赖关系;
[0028]任务创建模块,用于基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务;
[0029]任务关联模块,用于根据所述依赖关系将各个所述数据任务进行关联,形成大数据工作流;
[0030]采集调用模块,用于采集所述目标应用场景的源数据,并调用所述大数据工作流处理所述源数据。
[0031]另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
[0032]另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
[0033]另一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
[0034]由以上本说明书实施例提供的技术方案可见,在本说明书的实施例中,对于任何目标场景(即任何特定的应用场景),在确定了目标应用场景所需的数据任务类型及其依赖关系后,可以基于表至表的设计原则分别为该目标场景下的每个数据任务类型创建对应的数据任务,然后根据该目标场景的依赖关系,将创建的各个数据任务进行关联,形成大数据工作流,即形成针对该目标场景的大数据任务平台;在此基础上,可以采集目标应用场景的源数据,并调用大数据工作流处理源数据。如此,针对不同的应用场景,通过对初始的大数据任务平台进行适当改造或二次开发,即可以形成针对不同应用场景的大数据任务平台,从而提高了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对大数据任务的实现方法,其特征在于,包括:确定目标应用场景所需的数据任务类型及其依赖关系;基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务;根据所述依赖关系将各个所述数据任务进行关联,形成大数据工作流;采集所述目标应用场景的源数据,并调用所述大数据工作流处理所述源数据。2.如权利要求1所述的针对大数据任务的实现方法,其特征在于,当目标应用场景所需的数据任务类型包括ETL任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:形成元数据识别器、规则钩子函数和ETL工具;其中,所述元数据识别器用于将指定的数据源表的数据进行解析,并调用所述规则钩子函数将解析后的数据映射为ETL参数;所述ETL工具用于将所述ETL参数进行ETL处理,并将处理结果写入指定的写入表。3.如权利要求1所述的针对大数据任务的实现方法,其特征在于,当目标应用场景所需的数据任务类型包括SQL任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:形成SQL解析器,所述SQL解析器用于对指定的数据源表进行SQL解析,并通过关联或聚合的方式将解析结果写入指定的写入表,以构建所述数据源表和所述写入表之间的依赖关系。4.如权利要求1所述的针对大数据任务的实现方法,其特征在于,当目标应用场景所需的数据任务类型包括流式任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:形成实时计算引擎,所述实时计算引擎用于将流式数据转换为json数据,利用所述json数据的schema构建流式表,对所述流式表进行实时计算并将计算结果写入指定的实体表。5.如权利要求1所述的针对大数据任务的实现方法,其特征在于,当目标应用场景所需的数据任务类型包括机器学习任务时,所述基于表至表的原则分别为每个所述数据任务类型创建对应的数据任务,包括:形成基于MapReduce模型或Spark模型构建的机器学习任务架构,所述机器学习任务架构用于将指定的数据源表的数据读取和分发固定在本架构内,提供确定的数据结构给基于Python编码的机器学习代码计算,并将结果写入指定的写入表。6.如权利要求1所述的针对大数据任务的实现方法,其特征在于,当目标应用场景所需的数据任务类型包括特征指标分析任务时,所述基于表至表的原则分别为每个所述数据任务类型创建...

【专利技术属性】
技术研发人员:邢捷宋鑫吴迪
申请(专利权)人:厦门友微科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1