【技术实现步骤摘要】
一种基于预聚合公共表的跑批方法、设备、介质
[0001]本专利技术涉及大数据调度领域,尤其是涉及一种基于预聚合公共表的跑批方法、设备、介质。
技术介绍
[0002]现有的跑批方法在调度平台配置好定时任务SQL,由调度平台启动检测程序,来判断识别任务SQL下依赖的离线HIVEHIVE表是否到达,当检测到任务下依赖的HIVE表全部到达后,再进行真正的离线任务SQL的跑批计算。现有技术缺点在于任务是否可执行取决于依赖检测通过的最晚HIVE表到达时间和不能实现多个任务中相同依赖HIVE表检测的复用。
[0003]中国专利申请号CN202111479939.7公开了分布式跑批优化方法、电子设备以及计算机可读存储介质,分布式跑批优化方法包括:在预设跑批任务中确定第一层次业务逻辑上的第一层跑批子任务,确定各分布式机器对应的第一拉取线程;通过各第一拉取线程分别为对应的分布式机器轮询拉取第一子任务消息进行消费,得到第一子任务消息对应的执行结果;判断第一层次业务逻辑上的跑批子任务是否均执行完毕;若均执行完毕,则确定第二层次业务逻辑上依赖 ...
【技术保护点】
【技术特征摘要】
1.一种基于预聚合公共表的跑批方法,其特征在于,包括如下步骤:获取SQL标签任务,通过解析确定所述SQL标签任务依赖的HIVE表,根据预设的标签逻辑进行划分,获取标签跑批队列;针对所述标签跑批队列,根据各个标签涉及的HIVE表的数量进行分组,获取多个标签组,根据所述多个标签组,获取新增标签组预聚合SQL任务;根据多个所述新增标签组预聚合SQL任务,获取公共表集合;使用所述公共表集合进行跑批。2.根据权利要求1所述的一种基于预聚合公共表的跑批方法,其特征在于,所述的标签跑批队列的获取过程包括如下步骤:获取历史一段时间内的多个HIVE表,根据各个HIVE表的入仓时间段,将所述多个HIVE表划分为包括“不稳定级”在内的多个入仓及时性等级;通过解析确定所述SQL标签任务依赖的HIVE表集合,并确定所述HIVE表集合中各个HIVE表对应的入仓及时性等级;根据是否涉及明细表以及是否为“不稳定级”,将所述HIVE表集合分为涉及明细表、不涉及明细表且不包含不稳定级表、不涉及明细表且包含不稳定级表三类,针对明细表以及不涉及明细表且不包含不稳定级表,构建标签跑批队列。3.根据权利要求1所述的一种基于预聚合公共表的跑批方法,其特征在于,所述的多个标签分组的获取过程包括如下步骤:将所述标签跑批队列中每个涉及HIVE表数量大于或等于3的标签单独分为一组,若存在多个标签依赖的HIVE表完全相同且涉及的HIVE表数量大于3,将所述多个标签合并为一组;对于涉及的HIVE表数量小于3的标签,根据预设的融入规则,尝试将其融入已有组中;对于涉及的HIVE表数量小于3且不能融入已有组的标签,将涉及的HIVE表数量为2的标签分为一组,根据所述融入规则,尝试将涉及的HIVE表数量为1的标签融入已有组中;对于涉及的HIVE表数量为1且不能融入已有组的标签单独分为一组并进行两两组合,与历史SQL标签任务涉及的HIVE表进行匹配,从而获取多个标签分组。4.根据权利要求3所述的一种基于预聚合公共表的跑批方法,其特征在于,所述的融入规则为:判断待融入标签涉及的HIVE表是否完全包含在已有组涉及的HIVE表中,若否,所述待融入标签不能融入已有组,若是,判断是否有多个组符合条件,若否,将所述待融入标签融入符合条件的唯一已有组中,若是,判断符合条件且涉及的HIVE表的数量最少的组是否唯一,若是,将所述待融入标签融入符合条件且涉及的HIVE表的数量最少的唯一已有组中,若否,随机选取一个符合条件且涉及的HIVE表的数量最少的组中。5.根据权利要求1所述的一种基于预聚合公共表的跑批方法,其特征在于,所述的新增标签组预聚合SQL任务的获取过程包括如下步骤:根据所述多个标...
【专利技术属性】
技术研发人员:铁锦程,李梦聪,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。