数据流图处理结果确定方法、装置、设备及存储介质制造方法及图纸

技术编号：24331113 阅读：46 留言：0更新日期：2020-05-29 19:38

本申请实施例公开了一种数据流图处理结果确定方法、装置、设备及存储介质，其中该方法包括：根据已配置的算子确定待运行的目标数据流图，该目标数据流图表征对于存储在Hive中的目标数据源的处理逻辑；解析该目标数据流图生成目标SQL；通过Mysql执行该目标SQL，以基于Mysql中存储的参考数据源确定目标数据流图对应的处理结果，该参考数据源与目标数据源相对应，该考数据源的数据量小于目标数据源的数据量。该方法能够快速地基于配置的数据流图确定对应的处理结果，提高相关技术人员的使用体验。

Determination method, device, equipment and storage medium of data flow chart processing results

全部详细技术资料下载

【技术实现步骤摘要】
数据流图处理结果确定方法、装置、设备及存储介质
本申请涉及数据处理
，具体涉及一种数据流图处理结果确定方法、装置、设备及存储介质。
技术介绍
大数据是指无法在一定时间内用常规软件工具对其内容进行捕捉、管理和处理的数据集合。目前，相关技术人员对大数据进行分析处理时，习惯基于数据流图表示数据处理逻辑，数据流图可以从数据传递和加工的角度，以图形方式表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程。相关技术人员目前主要利用特定的软件平台，基于数据流图实现对于大数据的分析处理。具体的，相关技术人员可以根据自身的实际需求，将需要利用的算子组件拖拽至数据流图编辑画布，按照预设的处理逻辑将拖拽出的算子组件相应地串联起来，数据流图整体编排完成后，相关技术人员可以点击确认控件，查看所编排的数据流图对应的处理结果。上述软件平台基于数据流图生成对应的处理结果时，需要调用计算引擎Spark基于Hive中存储的大数据确定处理结果，而Hive是一种基于分布式文件系统(HadoopDistributedFileSystem，hdfs...

【技术保护点】
1.一种数据流图处理结果确定方法，其特征在于，所述方法包括：/n根据已配置的算子确定待运行的目标数据流图；所述目标数据流图表征对于目标数据源的处理逻辑，所述目标数据源存储于分布式存储数据库Hive；/n解析所述目标数据流图，生成目标结构化查询语言SQL；/n通过关系型数据库管理系统Mysql执行所述目标SQL，以基于所述Mysql中存储的参考数据源，确定所述目标数据流图对应的处理结果；所述参考数据源与所述目标数据源相对应，所述参考数据源的数据量小于所述目标数据源的数据量。/n

【技术特征摘要】
1.一种数据流图处理结果确定方法，其特征在于，所述方法包括：
根据已配置的算子确定待运行的目标数据流图；所述目标数据流图表征对于目标数据源的处理逻辑，所述目标数据源存储于分布式存储数据库Hive；
解析所述目标数据流图，生成目标结构化查询语言SQL；
通过关系型数据库管理系统Mysql执行所述目标SQL，以基于所述Mysql中存储的参考数据源，确定所述目标数据流图对应的处理结果；所述参考数据源与所述目标数据源相对应，所述参考数据源的数据量小于所述目标数据源的数据量。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
针对存储在所述Hive中的第一数据源，按照预设数据量创建与所述第一数据源对应的数据库及数据表结构作为第二数据源，将所述第二数据源存储至所述Mysql。

3.根据权利要求1所述的方法，其特征在于，所述根据已配置的算子确定待运行的目标数据流图，包括：
获取响应于拖拽操作添加显示在数据流图配置画布上的算子节点，以及响应于连接关系添加操作添加显示在所述数据流图配置画布上的算子连接关系；
根据所述数据流图配置画布上显示的所述算子节点和所述算子连接关系，确定所述目标数据流图。

4.根据权利要求1或3所述的方法，其特征在于，所述目标数据流图是以json格式表达的，所述目标数据流图中包括：已配置的各个算子节点、已配置的各个算子节点之间的连接关系、所述目标数据流图对应的处理逻辑中的起始算子节点和终止算子节点；
则所述解析所述目标数据流图，生成目标结构化查询语言SQL，包括：
根据以json格式表达的所述目标数据流图中包括的内容，生成所述目标SQL。

5.根据权利要求1所述的方法，其特征在于，在所述确定所述目标数据流图对应的处理结果之后，所述方法还包括：
判断所述处理结果是否满足预设需求；
若所述处理结果满足所述预设需...

【专利技术属性】
技术研发人员：王成林，高小宏，姜晓萌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人