数据处理流程调试方法、装置及电子设备制造方法及图纸

技术编号:23314975 阅读:18 留言:0更新日期:2020-02-11 17:45
本发明专利技术提供了一种数据处理流程调试方法、装置及电子设备,涉及数据调试技术领域,该方法包括:获取所述数据处理流程的作业信息,所述作业信息包括作业特征信息和从输入数据到输出数据之间的处理逻辑;根据所述作业特征信息,确定与所述作业特征信息相匹配的离线调试数据;按照所述处理逻辑对所述离线调试数据进行处理,得到所述数据处理流程的调试输出数据。由于调试的输入数据是离线数据,从而可以实现对数据处理流程的离线调试,避免干扰线上运行环境以及挤占线上作业的资源。

Data processing process debugging method, device and electronic equipment

【技术实现步骤摘要】
数据处理流程调试方法、装置及电子设备
本专利技术涉及作业调试
,尤其是涉及一种数据处理流程调试方法、装置及电子设备。
技术介绍
在数据爆发增长的时代,对数据进行处理的优劣,直接影响使用该数据得到的分析结论的准确性。实时流处理作为一种数据处理流程,以能够高效的实现数据清洗、统计、入库为目的。例如,基于Flink的处理流程,其中,Flink是一种常用的数据实时流数据处理的框架。以基于FlinkSQL的处理流程为例,该FlinkSQL包括SQL算子,在应用FlinkSQL对实时流数据进行处理之前,需要对基于FlinkSQL执行的数据处理流程进行调试,以验证FlinkSQL中SQL算子的语法、处理逻辑是否正确。目前的调试是线上试运行一段时间,根据试运行期间的数据处理结果进行调试。但是,该试运行期间的数据处理结果是基于在线的真实数据源得到的,该试运行期间会干扰线上运行环境,还会挤占线上作业的资源。
技术实现思路
有鉴于此,本专利技术提供了一种数据处理流程调试方法、装置及电子设备,以解决线上试运行会干扰线上运行环境,还会挤占线上作业的资源的技术问题。第一方面,本专利技术提供了一种数据处理流程调试方法,获取所述数据处理流程的作业信息,所述作业信息包括作业特征信息和从输入数据到输出数据之间的处理逻辑;根据所述作业特征信息,确定与所述作业特征信息相匹配的离线调试数据;按照所述处理逻辑对所述离线调试数据进行处理,得到所述数据处理流程的调试输出数据。第二方面,本专利技术提供了一种数据处理流程调试装置,该装置包括:获取单元,用于获取所述数据处理流程的作业信息,所述作业信息包括作业特征信息和从输入数据到输出数据之间的处理逻辑;确定单元,用于根据所述作业特征信息,确定与所述作业特征信息相匹配的离线调试数据;处理单元,用于按照所述处理逻辑对所述离线调试数据进行处理,得到所述数据处理流程的调试输出数据。第三方面,本专利技术提供的一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现如上所述的数据处理流程调试方法。第四方面,本专利技术提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现如上所述的数据处理流程调试方法。通过本专利技术实施例提供的上述数据处理流程调试方法、装置及电子设备,根据作业特征信息,选择相匹配的离线调试数据,并对该离线调试数据按照数据处理流程的处理逻辑进行处理,得到调试输出数据。由于调试针对的是离线数据,从而可以实现对处理逻辑的离线调试,避免干扰线上运行环境或挤占线上作业的资源。本专利技术的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本专利技术的上述技术即可得知。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据处理流程调试方法的流程示意图;图2为本专利技术实施例提供的另一种数据处理流程调试方法的流程示意图;图3为本专利技术实施例提供的一种数据处理流程调试装置的结构示意图;图4为本专利技术实施例提供的一种的电子设备的结构示意图。具体实施方式下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前,数据处理流程的调试是在线上试运行一段时间,根据试运行期间的数据处理结果进行调试。数据处理流程以基于FlinkSQL的处理流程为例,其线上运行环境可以是,从分布式消息分发系统Kafka读取数据,通过SQL算子对读取的数据进行运算,最后将计算结果写入到搜素引擎Elasticsearch。FlinkSQL的处理流程的调试也需要在线上运行环境中进行,这样会干扰线上运行环境,还会挤占线上作业的资源,例如网络带宽等。基于此,本专利技术实施例提供的一种数据处理流程调试方法、装置及电子设备,可以实现对数据处理流程的离线调试,避免干扰线上运行环境以及挤占线上作业的资源。图1为本专利技术实施例提供的一种数据处理流程调试方法的流程示意图。如图1所示,该方法包括以下步骤:步骤S110,获取数据处理流程的作业信息,该作业信息包括作业特征信息和从输入数据到输出数据之间的处理逻辑。一个数据处理流程可以包括一个或多个作业,每个作业可以对应有业务逻辑和一条或多条作业特征信息,该业务逻辑通过从输入数据到输出数据之间的处理逻辑来实现。以基于Flink的处理流程为例,Flink作为一个流计算框架,在执行Flink作业时,可以将Flink作业组织成Flink所能接受的程序结构,所以需要获取该基于Flink的处理流程对应的Flink作业信息。需要说明的是,作业是用户在数据处理流程包括的一次计算过程中或一个事务处理中要求电子设备所做的工作的集合。作业可以包括程序和数据,还可以包括作业说明书。电子设备可以基于作业说明书、程序和数据进行工作。例如,该作业可以为求学生的总人数、求年龄的最大值和最小值、求年龄总和或者求年龄的平均值等等。步骤S120,根据作业特征信息,确定与作业特征信息相匹配的离线调试数据。在本专利技术实施例中,每个作业可以对应一个或多个数据源,每一作业对应的离线调试数据可以是该作业的数据源的模拟数据,也可以是该作业的数据源的历史数据。例如,可以采样该作业的数据源指定时间段内的数据,作为该作业的离线调试数据,该指定时间段可以根据实际需要确定。在一些实施例中,每个作业的一条或多条作业特征信息可以包括该作业的数据源的属性信息,该属性信息可以包括:作业ID、数据对应表名和数据格式。对于每个作业的离线调试数据,可以与该作业特征信息对应存储,以便通过该作业特征信息获取该作业的离线调试数据。步骤S130,按照处理逻辑对离线调试数据进行处理,得到数据处理流程的调试输出数据。由于离线调试数据是已知的,所以基于该离线调试数据得到的调试输出数据也应该是符合预期的,可以根据该调试输出数据是否符合预期作为判断处理逻辑是否合理的依据。本专利技术实施例,根据作业特征信息,选择相匹配的离线调试数据,并对该离线调试数据按照数据处理流程的处理逻辑进行处理,得到调试输出数据。由于调试针对的是离线数据,从而可以实现对处理逻辑的离线调试,避免干扰线上运行环境或挤占线上作业的资本文档来自技高网...

【技术保护点】
1.一种数据处理流程调试方法,其特征在于,包括:/n获取所述数据处理流程的作业信息,所述作业信息包括作业特征信息和从输入数据到输出数据之间的处理逻辑;/n根据所述作业特征信息,确定与所述作业特征信息相匹配的离线调试数据;/n按照所述处理逻辑对所述离线调试数据进行处理,得到所述数据处理流程的调试输出数据。/n

【技术特征摘要】
1.一种数据处理流程调试方法,其特征在于,包括:
获取所述数据处理流程的作业信息,所述作业信息包括作业特征信息和从输入数据到输出数据之间的处理逻辑;
根据所述作业特征信息,确定与所述作业特征信息相匹配的离线调试数据;
按照所述处理逻辑对所述离线调试数据进行处理,得到所述数据处理流程的调试输出数据。


2.根据权利要求1所述的方法,其特征在于,根据所述作业特征信息,确定与所述作业特征信息相匹配的离线调试数据的步骤,包括:
根据所述作业特征信息,确定与所述作业特征信息相匹配的第一存储路径;
根据所述第一存储路径,获取所述离线调试数据。


3.根据权利要求2所述的方法,其特征在于,所述数据处理流程包括一个或多个作业,每个所述作业对应一条或多条作业特征信息,每个所述作业对应有数据源,每个所述作业对应的一条或多条作业特征信息包括该作业对应的数据源的属性信息。


4.根据权利要求3所述的方法,其特征在于,所述属性信息包括:作业ID、数据对应表名和数据格式。


5.根据权利要求4所述的方法,其特征在于,所述数据处理流程包括至少一个作业,所述方法还包括:
将每一作业的调试输出数据存储在内存中;
对于每一作业,在确定调试结束指令后,将该作业在内存中的调试输出数据,在与该作业的作业特征信息相匹配的第二存储路径中存储为调试结果文件,该调试结果文件的文件名包括该作业的作业特征信息。


6.根据权利要求5所述的方法,其特征在于,当所述离线调试数据包括多行时,则按照所述处理逻辑对所述离线调试数据进行处理的步骤包括:
依次将所述离线调试数据的每一行数据作为输入数据按照所述处理逻辑进行处理;
当确定将所述离线调试数据的最后一行数据作为输入数据后,...

【专利技术属性】
技术研发人员:郭恒
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1