【技术实现步骤摘要】
一种基于类SQL的数据文件分析处理方法、装置及电子设备
本专利技术涉及大数据分析
,具体的涉及一种基于类SQL的数据文件分析处理方法、装置及电子设备。
技术介绍
随着互联网行业的高速发展,大数据分析也渐渐的普及,经常会出现大量的有固定schema数据文件分析的场景,schema(模式)又称架构,架构的定义是形成单个命名空间的数据库实体的集合。命名空间是一个集合,其中每个元素的名称都是唯一的。在这里,我们可以将架构看成一个存放数据库中对象的一个容器。固定schema的数据文件常见的比如日志文件、execl格式大文件,类似文件如果想要进行数据分析和统计,需要借助分析软件(execl,Hadoop,presto等)或脚本(bash中的awk,sort组合使用)。现有技术的缺点:一、分析软件execl和脚本bash脚本基于主机内存处理,可以达到分析和统计目的,但是execl的学习成本、bash命令的使用成本都非常之高。二、Hadoop(分布式系统基础架构),presto(分布式SQL查询引擎)等属于大数 ...
【技术保护点】
1.一种基于类SQL的数据文件分析处理处理方法,其特征在于,包括:/n接收类SQL语句,对类SQL语句进行分析转换为多组语法算子;/n调用数据文件,各语法算子按照相互之间的逻辑关系针对数据文件进行运算分析处理。/n
【技术特征摘要】
1.一种基于类SQL的数据文件分析处理处理方法,其特征在于,包括:
接收类SQL语句,对类SQL语句进行分析转换为多组语法算子;
调用数据文件,各语法算子按照相互之间的逻辑关系针对数据文件进行运算分析处理。
2.根据权利要求1所述的一种基于类SQL的数据文件分析处理处理方法,其特征在于,所述接收类SQL语句,对类SQL语句进行分析转换为多组语法算子包括:
基于接收的类SQL语句进行关键记号提取;
根据提取的关键记号,进行整体的类SQL语句切分,将每个关键记号对应的SQL子句切分成查询节点Query;
将切分的每组查询节点Query进行语法抽象,转换为语法算子。
3.根据权利要求2所述的一种基于类SQL的数据文件分析处理处理方法,其特征在于,根据各查询节点Query对应的SQL子句在类SQL语句中的相互关联关系确定语法算子之间的逻辑关系;根据语法算子之间的相互逻辑关系将各语法算子进行连接,将整体的类SQL语句转换为由多组语法算子组合成的抽象语法树。
4.根据权利要求3所述的一种基于类SQL的数据文件分析处理处理方法,其特征在于,所述调用本机存储的数据文件,控制各语法算子按照相互之间的逻辑关系针对数据文件进行运算分析处理包括:
根据抽象语法树的上下文结构连接注册的各组语法算子;
调用数据文本加载至运行内存中;
各组语法算子按照连接关系针对数据文件进行运算、分析以及统计计算。
5.根据权利要求2所述的一种基于类SQL的数据文件分析处理处理方法,其特征在于,所述基于接收的类SQL语句进行关键记号提取包括:
基于类SQL语句,提取关键记号包括提取关键记号包括提取SELECT子句中的关键记号“SELECT”、和/或提取FROM子句中的关键记号“FROM”、和/或提取WHERE子句中的关键记号“WHERE”、和/或提取ORDERBY子句中的关键记号“ORDERBY”、和/或提取LIMIT子句中的关键记号“LIMIT”、和/或提取COUNT子句中的关键记号“COUNT”。<...
【专利技术属性】
技术研发人员:郑晓旭,
申请(专利权)人:作业帮教育科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。