数据生产加工方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24091682 阅读:29 留言:0更新日期:2020-05-09 08:21
本申请实施例公开了数据生产加工方法、装置、电子设备及存储介质,涉及数据生产领域。具体实现方案为:根据多个数据处理流程的信息及各个所述数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流;将所述数据生产流转换为对应的数据生产代码,所述数据生产代码用于对数据进行生产加工。本申请实施例能够降低数据处理流程的成本,加强流程化、规范化的保障,方便管理、监控和维护。

Data production and processing methods, devices, electronic equipment and storage media

【技术实现步骤摘要】
数据生产加工方法、装置、电子设备及存储介质
本申请涉及数据处理领域,尤其涉及数据生产领域。
技术介绍
数据的抽取-转换-加载(ETL,Extract-Transform-Load)技术是一种常见的数据生产加工方式。ETL过程包含数据获取(结构化数据提取、外部引入、策略挖掘等)、数据格式转换、数据清洗、数据消歧义融合、数据入库等系列的操作。现有的数据生产加工一般是由研发工程师(RD,ResearchandDevelopment)通过自己编写程序来实现各个数据处理流程,再通过硬编码的方式将各个数据处理流程串连起来,并在各自的机器上运行。这种通过人工编程实现各个数据处理流程的方式需要较大的人力成本,缺少流程化、规范化的保障,并且难以管理、监控和维护。
技术实现思路
本申请实施例提出一种数据生产加工方法及装置,以解决上述技术问题中的至少一项。第一方面,本申请实施例提出一种数据生产加工方法,包括:根据多个数据处理流程的信息及各个数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流;将数据生产流转换为对应的数据生产代码,数据生产代码用于对数据进行生产加工。本申请实施例根据收到的数据处理流程的信息及依赖关系生成数据生产流,并将数据生产流转换为对应的数据生产代码,从而实现对数据进行生产加工,能够降低数据处理流程的成本,加强流程化、规范化的保障,方便管理、监控和维护。在一种实施方式中,数据生产流采用有向无环图的形式表示;其中,有向无环图中的各个节点表示数据处理流程;有向无环图中的各个有向边表示有向边的后一个节点所对应的数据处理流程对前一个节点所对应的数据处理流程的依赖关系。本申请实施例采用有向无环图表示数据生产流,能够表示出较为复杂和类型丰富的数据生产流。在一种实施方式中,依赖关系包括时间依赖和数据依赖中的至少一项。本申请实施例采用时间依赖和数据依赖,能够表示出更多样的数据处理流程的依赖关系。在一种实施方式中,根据多个数据处理流程的信息及各个数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流之前,还包括:提供预先设置的数据处理策略;响应于对数据处理策略的选择请求及对数据处理策略的参数设置,确定对应的数据处理流程。本申请实施例可以为用户提供已经泛化好的组件,便于自动化、模块化处理。在一种实施方式中,根据多个数据处理流程的信息及各个数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流之前,还包括:接收数据处理流程所对应的脚本的地址信息;根据地址信息提取数据处理流程所对应的脚本;根据脚本,确定对应的数据处理流程。对于不经常采用的数据处理策略,本申请实施例可以自由扩展任何用户需要的操作组件。在一种实施方式中,确定对应的数据处理流程之后,还包括:显示确定出的数据处理流程所对应的组件;响应于对组件的拖拽操作、以及对各组件之间连接关系的输入操作,生成组件对应的数据处理流程所对应的节点,以及与节点连接的有向边。本申请实施例可以响应用户对数据处理流程对应组件的拖拽操作及连接关系的输入操作,便于用户构建数据生产流。在一种实施方式中,还包括:运行数据生产代码,以对数据进行生产加工。在一种实施方式中,还包括:显示有向无环图;在数据生产代码的运行过程中,在有向无环图上显示各数据处理流程的运行阶段。本申请实施例在运行过程中显示各数据处理流程的运行阶段,能够直观地显示运行状态。在一种实施方式中,还包括:响应于对数据处理流程的信息和/或依赖关系的修改指令,对数据处理流程和/或依赖关系进行更新;根据更新后的数据处理流程和/或依赖关系,对数据生产流进行迭代。本申请实施例支持对数据处理流程的信息或依赖关系的修改,便于对数据生产流进行迭代。在一种实施方式中,还包括:记录数据生产流所对应的数据生产代码的运行数据;分析运行数据;将分析结果采用图表的形式显示。本申请实施例可以对运行数据进行分析和统计,并显示分析和统计的结果,为用户对数据生产流的运行分析提供基本数据。第二方面,本申请实施例提出一种数据生产加工装置,包括:生成模块,用于根据多个数据处理流程的信息及各个数据处理流程对的依赖关系,生成包含多个数据处理流程的数据生产流;转换模块,用于将数据生产流转换为对应的数据生产代码,数据生产代码用于对数据进行生产加工。在一种实施方式中,数据生产流采用有向无环图的形式表示;其中,有向无环图中的各个节点表示一个数据处理流程;有向无环图中的各个有向边表示有向边的后一个节点所对应的数据处理流程对前一个节点所对应的数据处理流程的依赖关系。在一种实施方式中,依赖关系包括时间依赖和数据依赖中的至少一项。在一种实施方式中,还包括:第一数据处理流程确定模块,用于提供预先设置的数据处理策略;响应于对数据处理策略的选择请求及对数据处理策略的参数设置,确定对应的数据处理流程。在一种实施方式中,还包括:第二数据处理流程确定模块,用于接收数据处理流程所对应的脚本的地址信息;根据地址信息提取数据处理流程所对应的脚本;根据脚本,确定对应的数据处理流程。第三方面,本申请实施例提出一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中任一项的方法。第四方面,本申请实施例提出一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行第一方面中任一的方法。上述申请中的一个实施例具有如下优点或有益效果:本申请实施例能够降低数据处理流程的成本,加强流程化、规范化的保障,方便管理、监控和维护。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例的一种数据生产加工方法实现流程图一;图2为本申请实施例的一种有向无环图的示意图;图3为本申请实施例的一种数据生产加工方法实现流程图二;图4为本申请实施例的一种平台的用户界面示意图;图5为本申请实施例的一种平台的任务信息填写界面示意图;图6为本申请实施例的一种数据生产加工方法实现流程图三;图7为本申请实施例的一种对应数据生产流的有向无环图的显示界面示意图;图8为本申请实施例的一种DAG的状态转换机制示意图;图9为本申请实施例的一种数据生产加工方法中,运行统计及分析过程示意图;图10A为本申请实施例的一种数据生产加工方法中的运行分析甘特图示意图;图10B为本申请实施例的一种数据生产加工方法中的运行分析任务运行耗时图示意图;<本文档来自技高网...

【技术保护点】
1.一种数据生产加工方法,其特征在于,包括:/n根据多个数据处理流程的信息及各个所述数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流;/n将所述数据生产流转换为对应的数据生产代码,所述数据生产代码用于对数据进行生产加工。/n

【技术特征摘要】
1.一种数据生产加工方法,其特征在于,包括:
根据多个数据处理流程的信息及各个所述数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流;
将所述数据生产流转换为对应的数据生产代码,所述数据生产代码用于对数据进行生产加工。


2.根据权利要求1所述的方法,其特征在于,
所述数据生产流采用有向无环图的形式表示;其中,
所述有向无环图中的各个节点表示所述数据处理流程;
所述有向无环图中的各个有向边表示所述有向边的后一个节点所对应的数据处理流程对前一个节点所对应的数据处理流程的依赖关系。


3.根据权利要求2所述的方法,其特征在于,所述依赖关系包括时间依赖和数据依赖中的至少一项。


4.根据权利要求2所述的方法,其特征在于,所述根据多个数据处理流程的信息及各个所述数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流之前,还包括:
提供预先设置的数据处理策略;
响应于对所述数据处理策略的选择请求及对所述数据处理策略的参数设置,确定对应的数据处理流程。


5.根据权利要求2所述的方法,其特征在于,所述根据多个数据处理流程的信息及各个所述数据处理流程的依赖关系,生成包含多个数据处理流程的数据生产流之前,还包括:
接收数据处理流程所对应的脚本的地址信息;
根据所述地址信息提取所述数据处理流程所对应的脚本;
根据所述脚本,确定对应的数据处理流程。


6.根据权利要求4或5所述的方法,其特征在于,所述确定对应的数据处理流程之后,还包括:
显示确定出的数据处理流程所对应的组件;
响应于对所述组件的拖拽操作、以及对各组件之间连接关系的输入操作,生成所述组件对应的数据处理流程所对应的节点,以及与所述节点连接的有向边。


7.根据权利要求2至5任一所述的方法,其特征在于,还包括:运行所述数据生产代码,以对数据进行生产加工。


8.根据权利要求7所述的方法,其特征在于,还包括:显示所述有向无环图;
在所述数据生产代码的运行过程中,在所述有向无环图上显示各所述数据处理流程的运行阶段。


9.根据权利要求1至5任一所述的方法,其特征在于,还包括:
响应于对所述数据处理流...

【专利技术属性】
技术研发人员:江涛王冠朝严晖
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1