实时数据湖的文件合并方法、设备及存储介质技术

技术编号:43520251 阅读:19 留言:0更新日期:2024-12-03 12:09
本公开实施例提供一种实时数据湖的文件合并方法、设备及存储介质,该方法包括:获取实时数据湖表的查询任务的特征信息、以及实时数据湖表中待合并文件的属性信息;根据查询任务的特征信息以及待合并文件的属性信息,判断是否启动合并任务;若确定启动合并任务,则对待合并文件进行合并。本公开实施例可以科学合理的对实时数据湖表确定文件合并时机,降低用户成本、提高查询性能。

【技术实现步骤摘要】

本公开实施例涉及计算机与网络通信,尤其涉及一种实时数据湖的文件合并方法、设备及存储介质


技术介绍

1、实时数据湖是一种数据存储和处理架构,旨在解决海量数据的管理和分析问题,基于分布式存储和计算技术,可以接收和处理实时产生的大量数据。

2、现有技术中,对于实时数据湖表中的小文件,通常会采用固定周期进行文件合并,但是可能会影响查询性能,或者给用户带来不必要的资源开销,增加成本。


技术实现思路

1、本公开实施例提供一种实时数据湖的文件合并方法、设备及存储介质,以对实时数据湖表确定文件合并时机,降低用户成本、提高查询性能。

2、第一方面,本公开实施例提供一种实时数据湖的文件合并方法,包括:

3、获取实时数据湖表的查询任务的特征信息、以及实时数据湖表中待合并文件的属性信息;

4、根据查询任务的特征信息以及待合并文件的属性信息,判断是否启动合并任务;

5、若确定启动合并任务,则对待合并文件进行合并。

6、第二方面,本公开实施例提供一种实时数据湖的文本文档来自技高网...

【技术保护点】

1.一种实时数据湖的文件合并方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述查询任务的特征信息以及所述待合并文件的属性信息,判断是否启动合并任务,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述查询任务的特征信息以及所述待合并文件的属性信息,预测不对所述待合并文件进行合并情况下查询任务的第一资源开销指标,以及对所述待合并文件进行合并情况下查询任务和合并任务的第二资源开销指标,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测资源量和所述第一预测时长确定所述第一资源开销指标,包括:

...

【技术特征摘要】

1.一种实时数据湖的文件合并方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述查询任务的特征信息以及所述待合并文件的属性信息,判断是否启动合并任务,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述查询任务的特征信息以及所述待合并文件的属性信息,预测不对所述待合并文件进行合并情况下查询任务的第一资源开销指标,以及对所述待合并文件进行合并情况下查询任务和合并任务的第二资源开销指标,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测资源量和所述第一预测时长确定所述第一资源开销指标,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测资源量和所述第一预测时长确定所述第一资源开销指标,包括:

6.根据权利要求3-5任一项所述的方法,其特征在于,所述查询任务的特征信息包括以下一项或多项:多...

【专利技术属性】
技术研发人员:刘纬林阳昊魏中佳李亚坤
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1