一种基于数据湖的虚拟列构建方法以及数据查询方法技术

技术编号:35306399 阅读:17 留言:0更新日期:2022-10-22 12:56
本申请公开了一种基于数据湖的虚拟列构建方法以及数据查询方法,该公开为:先自动地针对数据湖中的大量待分析语句进行表达式统计分析,以得到待使用表达式;再根据待使用表达式对应的虚拟列构建描述信息,自动地构建出待使用表达式对应的虚拟列构建请求,以使虚拟列构建请求用于请求构建能够代表待使用表达式的虚拟列;然后,按照虚拟列构建请求,构建待使用表达式对应的虚拟列,以使虚拟列能够代表待使用表达式,以便日后用户能够借助针对虚拟列的数据查询请求,以自动地触发针对待使用表达式的数据查询请求,如此能够避免在用户手动输入针对待使用表达式的数据查询请求时所出现的问题,从而能够有效地提高用户数据查询体验。验。验。

【技术实现步骤摘要】
一种基于数据湖的虚拟列构建方法以及数据查询方法


[0001]本申请涉及数据处理
,尤其涉及一种基于数据湖的虚拟列构建方法以及数据查询方法。

技术介绍

[0002]随着信息技术的发展,数据湖的应用场景越来越多。
[0003]实际上,对于数据来说,每天可能会存在大量的数据查询任务,以满足用户数据查询需求。
[0004]然而,因一些数据查询方案存在缺陷,导致用户数据查询体验不太好。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种基于数据湖的虚拟列构建方法以及数据查询方法,能够提高用户数据查询体验。
[0006]为了实现上述目的,本申请实施例提供的技术方案如下:
[0007]本申请实施例提供一种基于数据湖的虚拟列构建方法,所述方法包括:
[0008]在获取到至少一个待分析语句之后,从所述至少一个待分析语句中确定待使用表达式;
[0009]确定所述待使用表达式对应的虚拟列构建描述信息;所述虚拟列构建描述信息包括所述待使用表达式;
[0010]根据所述待使用表达式对应的虚拟列构建描述信息,生成虚拟列构建请求;
[0011]按照所述虚拟列构建请求,构建所述待使用表达式对应的虚拟列。
[0012]在一种可能的实施方式中,所述待分析语句的个数为N;
[0013]所述从所述至少一个待分析语句中确定待使用表达式,包括:
[0014]从第n个待分析语句中确定第n个待分析表达式;n为正整数,n≤N,N为正整数;/>[0015]对N个待分析表达式进行统计分析处理,得到表达式统计结果;
[0016]若所述表达式统计结果表示所述N个待分析表达式中第一表达式的出现频次高于预设频次阈值,则将所述第一表达式确定为所述待使用表达式。
[0017]在一种可能的实施方式中,所述从第n个待分析语句中确定第n个待分析表达式,包括:
[0018]对所述第n个待分析语句进行语法转换处理,得到语法转换结果;
[0019]从所述语法转换结果中提取所述第n个待分析表达式。
[0020]在一种可能的实施方式中,所述方法还包括:
[0021]对所述第n个待分析表达式进行语法树构建处理,得到所述第n个待分析表达式的语法树;
[0022]所述对N个待分析表达式进行统计分析处理,得到统计分析结果,包括:
[0023]对所述N个待分析表达式的语法树进行统计分析处理,得到统计分析结果。
[0024]在一种可能的实施方式中,所述虚拟列构建描述信息还包括列名;
[0025]所述待使用表达式对应的列名的确定过程,包括:
[0026]若所述至少一个待分析语句中存在至少一个待参考语句,则从所述至少一个待参考语句中确定所述待使用表达式对应的列名;所述待参考语句携带的表达式与所述待使用表达式之间满足预设语义相同条件;所述待参考语句包括所述待参考语句携带的表达式对应的列名。
[0027]在一种可能的实施方式中,所述从所述至少一个待参考语句中确定所述待使用表达式对应的列名,包括:
[0028]对所述至少一个待参考语句携带的表达式对应的列名进行统计分析处理,得到列名统计结果;
[0029]根据所述列名统计结果,确定所述待使用表达式对应的列名。
[0030]在一种可能的实施方式中,所述至少一个待参考语句携带的表达式对应的列名包括目标列名;
[0031]所述根据所述列名统计结果,确定所述待使用表达式对应的列名,包括:
[0032]若所述列名统计结果表示所述目标列名的出现频次满足预设频次条件,则将所述目标列名,确定为所述待使用表达式对应的列名。
[0033]在一种可能的实施方式中,所述方法还包括:
[0034]若所述至少一个待分析语句中不存在所述待参考语句,则根据预先设定的至少一个待匹配表达式与所述待使用表达式之间的相似表征数据,从所述至少一个待匹配表达式中确定第二表达式;所述第二表达式与所述待使用表达式之间的相似表征数据满足预设相似条件;
[0035]从预先构建的映射关系中查找所述第二表达式对应的列名;所述映射关系用于记录各所述待匹配表达式与各所述待匹配表达式对应的列名之间的对应关系;
[0036]根据所述第二表达式对应的列名,确定所述待使用表达式对应的列名。
[0037]在一种可能的实施方式中,所述待匹配表达式的个数为M;
[0038]第m个待匹配表达式与所述待使用表达式之间的相似表征数据的确定过程,包括:
[0039]确定所述待使用表达式的字段名向量以及关键字向量;
[0040]根据所述待使用表达式的字段名向量与所述第m个待匹配表达式的字段名向量之间的相似度、以及所述待使用表达式的关键字向量与所述第m个待匹配表达式的关键字向量之间的相似度,确定所述第m个待匹配表达式与所述待使用表达式之间的相似表征数据。
[0041]在一种可能的实施方式中,所述待使用表达式的字段名向量的确定过程,包括:
[0042]对所述待使用表达式进行字段名提取处理,得到字段名提取结果;将所述字段名提取结果进行向量化处理,得到所述待使用表达式的字段名向量。
[0043]在一种可能的实施方式中,所述待使用表达式的关键字向量的确定过程,包括:
[0044]对所述待使用表达式进行关键字提取处理,得到关键字提取结果;将所述关键字提取结果进行向量化处理,得到所述待使用表达式的关键字向量。
[0045]在一种可能的实施方式中,所述虚拟列构建描述信息还包括数据类型;所述数据类型是根据所述待使用表达式携带的列名对应的数据类型确定的。
[0046]本申请实施例还提供了一种基于数据湖的数据查询方法,所述方法包括:
[0047]获取第一数据查询请求;所述第一数据查询请求用于请求针对目标虚拟列进行数据查询;其中,所述目标虚拟列是利用本申请实施提供的基于数据湖的虚拟列构建方法的任一实施方式进行构建的;
[0048]利用所述目标虚拟列对应的表达式,替换所述第一数据查询请求中所述目标虚拟列的列名,得到第二数据查询请求;
[0049]按照所述第二数据查询请求进行数据查询处理。
[0050]本申请实施例还提供了一种基于数据湖的虚拟列构建装置,包括:
[0051]表达式确定单元,用于在获取到至少一个待分析语句之后,从所述至少一个待分析语句中确定待使用表达式;
[0052]信息确定单元,用于确定所述待使用表达式对应的虚拟列构建描述信息;所述虚拟列构建描述信息包括所述待使用表达式;
[0053]请求生成单元,用于根据所述待使用表达式对应的虚拟列构建描述信息,生成虚拟列构建请求;
[0054]虚拟列构建单元,用于按照所述虚拟列构建请求,构建所述待使用表达式对应的虚拟列。
[0055]本申请实施例还提供了一种基于数据湖的数据查询装置,包括:
[0056]请求获本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的虚拟列构建方法,其特征在于,所述方法包括:在获取到至少一个待分析语句之后,从所述至少一个待分析语句中确定待使用表达式;确定所述待使用表达式对应的虚拟列构建描述信息;所述虚拟列构建描述信息包括所述待使用表达式;根据所述待使用表达式对应的虚拟列构建描述信息,生成虚拟列构建请求;按照所述虚拟列构建请求,构建所述待使用表达式对应的虚拟列。2.根据权利要求1所述的方法,其特征在于,所述待分析语句的个数为N;所述从所述至少一个待分析语句中确定待使用表达式,包括:从第n个待分析语句中确定第n个待分析表达式;n为正整数,n≤N,N为正整数;对N个待分析表达式进行统计分析处理,得到表达式统计结果;若所述表达式统计结果表示所述N个待分析表达式中第一表达式的出现频次高于预设频次阈值,则将所述第一表达式确定为所述待使用表达式。3.根据权利要求2所述的方法,其特征在于,所述从第n个待分析语句中确定第n个待分析表达式,包括:对所述第n个待分析语句进行语法转换处理,得到语法转换结果;从所述语法转换结果中提取所述第n个待分析表达式。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述第n个待分析表达式进行语法树构建处理,得到所述第n个待分析表达式的语法树;所述对N个待分析表达式进行统计分析处理,得到统计分析结果,包括:对所述N个待分析表达式的语法树进行统计分析处理,得到统计分析结果。5.根据权利要求1所述的方法,其特征在于,所述虚拟列构建描述信息还包括列名;所述待使用表达式对应的列名的确定过程,包括:若所述至少一个待分析语句中存在至少一个待参考语句,则从所述至少一个待参考语句中确定所述待使用表达式对应的列名;所述待参考语句携带的表达式与所述待使用表达式之间满足预设语义相同条件;所述待参考语句包括所述待参考语句携带的表达式对应的列名。6.根据权利要求5所述的方法,其特征在于,所述从所述至少一个待参考语句中确定所述待使用表达式对应的列名,包括:对所述至少一个待参考语句携带的表达式对应的列名进行统计分析处理,得到列名统计结果;根据所述列名统计结果,确定所述待使用表达式对应的列名。7.根据权利要求6所述的方法,其特征在于,所述至少一个待参考语句携带的表达式对应的列名包括目标列名;所述根据所述列名统计结果,确定所述待使用表达式对应的列名,包括:若所述列名统计结果表示所述目标列名的出现频次满足预设频次条件,则将所述目标列名,确定为所述待使用表达式对应的列名。8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述至少一个待分析语句中不存在所述待参考语句,则根据预先设定的至少一个待匹配表达式与所述待使用表达式之间的相似表征数据,从所述至少一个待匹配表达式中确定第二表达式;所述第二表达式与所述待使用表达式之间的相似表征数据满足预设相似条件;从预先构建的映射关系中查找所述第二表达式对应的列名;所述映射关系用于记录各所述待匹配表达式与各所述待匹配表达式对应的列名之间的对应关系;根据所述第二表达式对应的列名,确定所述待使用表达式对应的列名。9.根据权利要求8所述的方法,其特征在于,所述待匹配表达式的个数为M;第m个待匹配表达式与所述待使用表达式之间的相似表征数据的确定过程,...

【专利技术属性】
技术研发人员:郭俊谢佳君孙科罗旋
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1