Spark存储过程处理方法及装置制造方法及图纸

技术编号：19822009 阅读：20 留言：0更新日期：2018-12-19 14:47

本公开涉及Spark存储过程处理方法及装置，应用于Spark的Driver端，所述方法包括：获取Spark存储过程对应的语句集，所述语句集包括操作SQL语句和逻辑控制语句，所述操作SQL语句包括查询SQL语句，所述逻辑控制语句包括游标处理语句；将所述查询SQL语句和所述游标处理语句进行合并后生成第一逻辑计划；将所述第一逻辑计划发送至工作节点WorkerNode集群执行。通过将游标处理过程抽象为一个逻辑计划，并分发至WorkerNode集群执行，根据本公开实施例的Spark存储过程处理方法及装置能够降低Driver端负载压力。

全部详细技术资料下载

【技术实现步骤摘要】
Spark存储过程处理方法及装置
本公开涉及大数据
，尤其涉及一种Spark存储过程处理方法及装置。
技术介绍
SparkSQL是基于Spark的分布式SQL引擎。一条SQL语句，在SparkSQL中会经过词法解析、语法解析等阶段，将SQL语句转为可以分布式执行的逻辑计划，并交由WorkerNode(工作节点)集群执行。Spark存储过程可以用于实现特定功能，是由操作SQL语句和逻辑控制语句组合而成的语句集。其中，操作SQL语句包括查询(Select)SQL语句和插入(Insert)SQL语句，逻辑控制语句可以包括赋值语句、条件判断语句和循环语句等，这些语句为SQL语句或非SQL语句。在执行Spark存储过程时，Spark的Driver(驱动器)端会启动一个PL/SQL(ProceduralLanguage/SQL，过程化SQL语句)引擎。相关技术中，在PL/SQL引擎对存储过程进行处理的过程中，对于非SQL语句，则直接在本地执行该逻辑控制语句；对于SQL语句，则生成逻辑计划，并将生成的逻辑计划交由WorkerNode集群执行。Driver端的PL/SQL引擎会将WorkerNode集群执行上述逻辑计划的结果拉取到本地，然后对所述结果执行逻辑控制语句中的游标处理语句，导致Driver端的负载较大。
技术实现思路
有鉴于此，本公开提出了一种Spark存储过程处理方法及装置，能够降低Driver端负载压力。根据本公开的一方面，提供了一种Spark存储过程处理方法，应用于Spark的Driver端，所述方法包括：获取Spark存储过程对应的语句集，所述语句集包...

【技术保护点】
1.一种Spark存储过程处理方法，其特征在于，应用于Spark的Driver端，所述方法包括：获取Spark存储过程对应的语句集，所述语句集包括操作SQL语句和逻辑控制语句，所述操作SQL语句包括查询SQL语句，所述逻辑控制语句包括游标处理语句；将所述查询SQL语句和所述游标处理语句进行合并后生成第一逻辑计划；将所述第一逻辑计划发送至工作节点WorkerNode集群执行。

【技术特征摘要】
1.一种Spark存储过程处理方法，其特征在于，应用于Spark的Driver端，所述方法包括：获取Spark存储过程对应的语句集，所述语句集包括操作SQL语句和逻辑控制语句，所述操作SQL语句包括查询SQL语句，所述逻辑控制语句包括游标处理语句；将所述查询SQL语句和所述游标处理语句进行合并后生成第一逻辑计划；将所述第一逻辑计划发送至工作节点WorkerNode集群执行。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对于所述语句集中除所述游标处理语句和所述查询SQL语句以外的每个语句，若该语句为SQL语句，则基于该SQL语句生成第二逻辑计划；将所述第二逻辑计划发送至所述WorkerNode集群中执行。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：对于所述语句集中除所述游标处理语句和所述操作SQL语句以外的每个语句，若该语句为非SQL语句，则在本地执行该非SQL语句。4.根据权利要求3所述的方法，其特征在于，所述游标处理语句包括：以指定变量为过滤条件的语句和/或对指定变量进行处理的语句，所述指定变量用于存储通过游标从所述查询SQL语句的结果集中读取的结果。5.一种Spark存储过程处理装置，其特征在于，应...

【专利技术属性】
技术研发人员：谷宁波，户蕾蕾，
申请(专利权)人：新华三大数据技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人