一种基于热点预测的Hudi异步数据聚类的方法和系统技术方案

技术编号:40544246 阅读:19 留言:0更新日期:2024-03-05 19:01
本发明专利技术涉及一种基于热点预测的Hudi异步数据聚类的方法和系统;包括:SQL查询语句解析,包括收集SQL语句、分词处理、建立词汇表、建立嵌入层;基于获取并解析后的SQL语句,采用训练好的基于在线学习算法的LSTM模型预测查询热点字段和查询热点表;获取训练好的基于在线学习算法的LSTM模型预测的查询热点字段和查询热点表,多次自动化进行异步数据聚类分析。本发明专利技术可以一定程度地避免异步聚类时产生的数据不一致问题,使得分区中的数据文件有较高的新鲜度;另外,通过优化热点数据布局,大大提高了以Hudi作为Presto引擎数据源时的查询效率。

【技术实现步骤摘要】

本专利技术涉及大数据计算,尤其涉及一种基于热点预测的hudi异步数据聚类的方法和系统。


技术介绍

1、hudi(hadoop upsert and incremental)是一个用于管理大规模数据湖的开源数据管理框架,它提供了诸如写入、更新、删除、合并等功能,同时支持增量数据同步和时间旅行查询。在hudi中有两种数据表的存储方式,第一种为cow(copy on write)表,它支持高效的数据更新和变更操作,同时保持数据的一致性和可查询性。另一种是mor(merge onread)表,它具有将基于列的数据存储在云存储或分布式文件系统中,并使用hudi进行数据合并(merge)和增量更新的能力。

2、但是,不管是cow表还是mor表,在查询性能方面都有各自的缺点。cow表是采用追加写的方式,每次写操作都会创建新的数据文件,这将导致数据文件的不断增长,从而影响写入性能,且文件系统的管理、存储和维护成本都将增大,查询性能也会降低。而在mor模式下,数据合并是基于“合并后读取”的模式,新写入的数据可能需要等待合并操作完成后才能对外部查询可见,在频繁写入本文档来自技高网...

【技术保护点】

1.一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,包括:

2.根据权利要求1所述的一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,SQL查询语句解析,包括:

3.根据权利要求1所述的一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,建立嵌入层,是指Word2Vec模型构建、训练和应用,包括:

4.根据权利要求1所述的一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,基于获取并解析后的SQL语句,采用训练好的基于在线学习算法的LSTM模型预测查询热点字段和查询热点表,包括:

5.根据权利要求1所述的一种基...

【技术特征摘要】

1.一种基于热点预测的hudi异步数据聚类的方法,其特征在于,包括:

2.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,sql查询语句解析,包括:

3.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,建立嵌入层,是指word2vec模型构建、训练和应用,包括:

4.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,基于获取并解析后的sql语句,采用训练好的基于在线学习算法的lstm模型预测查询热点字段和查询热点表,包括:

5.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,采用训练好的基于在线学习算法的lstm模型预测查询热点字段和查询热点表,包括:

6.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:郭莹杨晓晗张秋萍杨美红吴晓明潘景山刘尚旭张颖
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1