一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统技术方案

技术编号：23787121 阅读：26 留言：0更新日期：2020-04-15 00:30

本发明专利技术公开了一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统，该方法及系统具体分为数据源管理、语法编辑器、语法解析器和脚本执行器；首先基于Presto构建多数据源查询平台，实现数据源动态添加删除以及使用同一套SQL语法查询不同数据源的数据；之后定义一套可混合执行SQL和python代码的语法规则；语法规则如下：整个脚本由命令行代码块及python代码块两部分组成，其中命令行代码块包含SQL语句；命令行语句以';'作为结束符，python代码块需要以'%python'包裹，即以'%python'开头，并以'%python'结尾。本发明专利技术提供的方法简化了多数据源查询的过程，消除了SQL和python代码的跨语言隔阂，数据分析人员无需再处理python和SQL查询的连接问题，只关注数据分析的部分，大大提高数据分析的效率。

A Presto based method and system for mixed execution of SQL and python scripts supporting multiple data sources

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统
本专利技术涉及数据分析
，具体为一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统。
技术介绍
目前，在数据分析领域，分析师使用python对多个类SQL系统的数据进行查询分析时，需要执行以下步骤：步骤一，针对不同的类SQL系统编写查询SQL；步骤二，针对不同类SQL系统编写链接执行代码执行编写好的SQL进行数据查询；步骤三，编写数据转换代码将查询结果转换为DataFrame；步骤四，编写数据分析代码分析数据；步骤五，执行python代码得出分析结果。整个过程只有步骤四是具体的数据分析过程，其他都是为数据分析做的重复的准备工作，过程繁琐，操作复杂，非常影响数据分析的效率。
技术实现思路
本专利技术的目的在于提供一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统，其特征在于：该方法及系统具体分为数据源管理、语法编辑器、语法解析器和脚本执行器；首先基于Presto构建多数据源查询平台，实现数据源动态添加删除以及使用同一套SQL语法查询不同数据源的数据；之后定义一套可混合执行SQL和python代码的语法规则；语法规则如下：整个脚本由命令行代码块及python代码块两部分组成，其中命令行代码块包含SQL语句；命令行语句以';'作为结束符，python代码块需要以'%python'包裹，即以'%python'开头，并以'%python'...

【技术保护点】
1.一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统，其特征在于：该方法及系统具体分为数据源管理、语法编辑器、语法解析器和脚本执行器；首先基于Presto构建多数据源查询平台，实现数据源动态添加删除以及使用同一套SQL语法查询不同数据源的数据；之后定义一套可混合执行SQL和python代码的语法规则；语法规则如下：整个脚本由命令行代码块及python代码块两部分组成，其中命令行代码块包含SQL语句；命令行语句以';'作为结束符，python代码块需要以'%python'包裹，即以'%python'开头，并以'%python'结尾；语法规则其中包括：/n①：export语法：/nexport命令负责声明全局常量，语法规则如下：/nexport const_name = num|"string";/n②：load语法：/nload命令可以将CSV或者JSON文件导入成临时表，语法规则如下：/nload csv|json.'file_path' as table table_name;/n③：save query as table 语法：/nsave quer...

【技术特征摘要】
1.一种基于Presto的支持多数据源的混合执行SQL和python脚本的方法及系统，其特征在于：该方法及系统具体分为数据源管理、语法编辑器、语法解析器和脚本执行器；首先基于Presto构建多数据源查询平台，实现数据源动态添加删除以及使用同一套SQL语法查询不同数据源的数据；之后定义一套可混合执行SQL和python代码的语法规则；语法规则如下：整个脚本由命令行代码块及python代码块两部分组成，其中命令行代码块包含SQL语句；命令行语句以';'作为结束符，python代码块需要以'%python'包裹，即以'%python'开头，并以'%python'结尾；语法规则其中包括：
①：export语法：
export命令负责声明全局常量，语法规则如下：
exportconst_name=num|"string";
②：load语法：
load命令可以将CSV或者JSON文件导入成临时表，语法规则如下：
loadcsv|json.'file_path'astabletable_name;
③：savequeryastable语法：
savequeryastable命令将SQL查询结果保存为临时表，语法规则如下：
savequery(SQLstatement)astabletable_name;
④：savequeryasvariable语法：
savequeryasvariable命令将SQL查询结果保存为全局变量，语法规则如下：
savequery(SQLstatement)asvariablevariable_name;
⑤：print语法：
print命令可以将全局变量的值或者内部表的数据临时输出出来进行预览，print内部表时，如果数据量很大，只会输出部分结果进行预览，语法规则如下：
print{{v1}}|(SQLstatement);
⑥：return语法：
return命令返回最后结果，语法规则如下：
return{{v1}};
⑦：变量及常量引用：
使用{{varial_name|table_name}}格式引用变量和内部表；
⑧：Pythonload_variable函数
python中使用load_variable方法将全局变量load为python变量；
⑨：Pythonexport_variable函数：
python中使用export_variable方法将python变量声明为全局变量，使变量可以直接在命令行里引用；
⑩：Pythonload_table函数：
python中使用load_table方法将内部表load为pandas的DataFrame；
⑪：Pythonsave_to_table函数：
python中使用save_to_table方将pandas的DataFrame导出为内部表；
使用Antlr4根据上面定义的语法规则开发语法解析执行器，执行器使用内存数据库作为中间结果存储媒介，每次执行脚本，在内存数据库中为本次执行创建一个临时存储，脚本执行结束后，释放数据，删除临时存储，具体解析执行逻辑如下：
①：export命令：
对于expor...

【专利技术属性】
技术研发人员：邱珩，陈俊锋，胡宗宝，
申请(专利权)人：象辑知源武汉科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人