数据流图处理结果确定方法、装置、设备及存储介质制造方法及图纸

技术编号:24331113 阅读:40 留言:0更新日期:2020-05-29 19:38
本申请实施例公开了一种数据流图处理结果确定方法、装置、设备及存储介质,其中该方法包括:根据已配置的算子确定待运行的目标数据流图,该目标数据流图表征对于存储在Hive中的目标数据源的处理逻辑;解析该目标数据流图生成目标SQL;通过Mysql执行该目标SQL,以基于Mysql中存储的参考数据源确定目标数据流图对应的处理结果,该参考数据源与目标数据源相对应,该考数据源的数据量小于目标数据源的数据量。该方法能够快速地基于配置的数据流图确定对应的处理结果,提高相关技术人员的使用体验。

Determination method, device, equipment and storage medium of data flow chart processing results

【技术实现步骤摘要】
数据流图处理结果确定方法、装置、设备及存储介质
本申请涉及数据处理
,具体涉及一种数据流图处理结果确定方法、装置、设备及存储介质。
技术介绍
大数据是指无法在一定时间内用常规软件工具对其内容进行捕捉、管理和处理的数据集合。目前,相关技术人员对大数据进行分析处理时,习惯基于数据流图表示数据处理逻辑,数据流图可以从数据传递和加工的角度,以图形方式表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程。相关技术人员目前主要利用特定的软件平台,基于数据流图实现对于大数据的分析处理。具体的,相关技术人员可以根据自身的实际需求,将需要利用的算子组件拖拽至数据流图编辑画布,按照预设的处理逻辑将拖拽出的算子组件相应地串联起来,数据流图整体编排完成后,相关技术人员可以点击确认控件,查看所编排的数据流图对应的处理结果。上述软件平台基于数据流图生成对应的处理结果时,需要调用计算引擎Spark基于Hive中存储的大数据确定处理结果,而Hive是一种基于分布式文件系统(HadoopDistributedFileSystem,hdfs)的分布式存储数据库,其支持实时性较差,因此导致处理结果生成速率缓慢,相关技术人员通常需要经过长时间的等待才能查看处理结果。
技术实现思路
本申请实施例提供了一种数据流图处理结果确定方法、装置、设备及存储介质,能够快速地基于配置的数据流图确定对应的处理结果,提高相关技术人员的使用体验。有鉴于此,本申请第一方面提供了一种数据流图处理结果确定方法,所述方法包括:根据已配置的算子确定待运行的目标数据流图;所述目标数据流图表征对于目标数据源的处理逻辑,所述目标数据源存储于分布式存储数据库Hive;解析所述目标数据流图,生成目标结构化查询语言SQL;通过关系型数据库管理系统Mysql执行所述目标SQL,以基于所述Mysql中存储的参考数据源,确定所述目标数据流图对应的处理结果;所述参考数据源与所述目标数据源相对应,所述参考数据源的数据量小于所述目标数据源的数据量。本申请第二方面提供了一种数据流图处理结果确定装置,其特征在于,所述装置包括:数据流图确定模块,用于根据已配置的算子确定待运行的目标数据流图;所述目标数据流图表征对于目标数据源的处理逻辑,所述目标数据源存储于分布式存储数据库Hive;SQL生成模块,用于解析所述目标数据流图,生成目标结构化查询语言SQL;处理结果确定模块,用于通过关系型数据库管理系统Mysql执行所述目标SQL,以基于所述Mysql中存储的参考数据源,确定所述目标数据流图对应的处理结果;所述参考数据源与所述目标数据源相对应,所述参考数据源的数据量小于所述目标数据源的数据量。本申请第三方面提供了一种电子设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序,执行如上述第一方面所述的数据流图处理结果确定方法的步骤。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的数据流图处理结果确定方法的步骤。本申请第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的数据流图处理结果确定方法的步骤。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供了一种数据流图处理结果确定方法,该方法可以基于数据量较少的数据源,针对已配置的数据流图快速地确定其对应的处理结果。具体的,在本申请实施例提供的数据流图处理结果确定方法中,先根据已配置的算子确定待运行的目标数据流图,该目标数据流图用于表征对于目标数据源的处理逻辑,此处的目标数据源存储在分布式存储数据库Hive中;然后,解析该目标数据流图,生成目标结构化查询语言(StructuredQueryLanguage,SQL);进而,执行所生成的目标SQL,基于关系型数据库管理系统Mysql中存储的参考数据源,确定目标数据流图对应的处理结果,该参考数据源与目标数据源相对应,且该参考数据源的数据量远小于目标数据源的数据量。如此,通过调用具备快速响应特性的Mysql,基于Mysql中存储的小数据量的参考数据源确定目标数据流图对应的处理结果,大大提高了处理结果的生成速率。基于此,本申请提供的技术方案可以进一步支持相关技术人员在配置数据流图的过程中,边配置算子节点边查看处理结果,提高相关技术人员的工作效率,帮助相关技术人员在配置数据流图的过程中及时发现错误。附图说明图1为本申请实施例提供的数据流图处理结果确定方法的场景示意图;图2为本申请实施例提供的数据流图处理结果确定方法的流程示意图;图3为本申请实施例提供的算子组件的示意图;图4为本申请实施例提供的数据流图的示意图;图5为本申请实施例提供的算子配置界面的示意图;图6为本申请实施例提供的json格式的数据流图的示意图;图7为本申请实施例提供的目标数据流图的处理结果示意图;图8为本申请实施例提供的数据同步的示意图;图9为本申请实施例提供的数据流图处理结果确定方法的交互信令图;图10为本申请实施例提供的数据流图处理结果确定装置的结构示意图;图11为本申请实施例提供的数据流图处理结果确定装置的结构示意图;图12为本申请实施例提供的数据流图处理结果确定装置的结构示意图;图13为本申请实施例提供的数据流图处理结果确定装置的结构示意图;图14为本申请实施例提供的数据流图处理结果确定装置的结构示意图;图15为本申请实施例提供的终端设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了便于理解本申请实施例提供的数据流图处理结果确定方法,下面先对本申请中涉及的相关技术名词进行解释。算子,是指在大数据处理中用于实现某种特定功能的算法包,编排数据流图时,若需要调用某个算子,可以将该算子对应的节点拖拽至用于编排数据流图本文档来自技高网
...

【技术保护点】
1.一种数据流图处理结果确定方法,其特征在于,所述方法包括:/n根据已配置的算子确定待运行的目标数据流图;所述目标数据流图表征对于目标数据源的处理逻辑,所述目标数据源存储于分布式存储数据库Hive;/n解析所述目标数据流图,生成目标结构化查询语言SQL;/n通过关系型数据库管理系统Mysql执行所述目标SQL,以基于所述Mysql中存储的参考数据源,确定所述目标数据流图对应的处理结果;所述参考数据源与所述目标数据源相对应,所述参考数据源的数据量小于所述目标数据源的数据量。/n

【技术特征摘要】
1.一种数据流图处理结果确定方法,其特征在于,所述方法包括:
根据已配置的算子确定待运行的目标数据流图;所述目标数据流图表征对于目标数据源的处理逻辑,所述目标数据源存储于分布式存储数据库Hive;
解析所述目标数据流图,生成目标结构化查询语言SQL;
通过关系型数据库管理系统Mysql执行所述目标SQL,以基于所述Mysql中存储的参考数据源,确定所述目标数据流图对应的处理结果;所述参考数据源与所述目标数据源相对应,所述参考数据源的数据量小于所述目标数据源的数据量。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对存储在所述Hive中的第一数据源,按照预设数据量创建与所述第一数据源对应的数据库及数据表结构作为第二数据源,将所述第二数据源存储至所述Mysql。


3.根据权利要求1所述的方法,其特征在于,所述根据已配置的算子确定待运行的目标数据流图,包括:
获取响应于拖拽操作添加显示在数据流图配置画布上的算子节点,以及响应于连接关系添加操作添加显示在所述数据流图配置画布上的算子连接关系;
根据所述数据流图配置画布上显示的所述算子节点和所述算子连接关系,确定所述目标数据流图。


4.根据权利要求1或3所述的方法,其特征在于,所述目标数据流图是以json格式表达的,所述目标数据流图中包括:已配置的各个算子节点、已配置的各个算子节点之间的连接关系、所述目标数据流图对应的处理逻辑中的起始算子节点和终止算子节点;
则所述解析所述目标数据流图,生成目标结构化查询语言SQL,包括:
根据以json格式表达的所述目标数据流图中包括的内容,生成所述目标SQL。


5.根据权利要求1所述的方法,其特征在于,在所述确定所述目标数据流图对应的处理结果之后,所述方法还包括:
判断所述处理结果是否满足预设需求;
若所述处理结果满足所述预设需...

【专利技术属性】
技术研发人员:王成林高小宏姜晓萌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1