【技术实现步骤摘要】
本专利技术涉及大数据计算,尤其涉及一种基于热点预测的hudi异步数据聚类的方法和系统。
技术介绍
1、hudi(hadoop upsert and incremental)是一个用于管理大规模数据湖的开源数据管理框架,它提供了诸如写入、更新、删除、合并等功能,同时支持增量数据同步和时间旅行查询。在hudi中有两种数据表的存储方式,第一种为cow(copy on write)表,它支持高效的数据更新和变更操作,同时保持数据的一致性和可查询性。另一种是mor(merge onread)表,它具有将基于列的数据存储在云存储或分布式文件系统中,并使用hudi进行数据合并(merge)和增量更新的能力。
2、但是,不管是cow表还是mor表,在查询性能方面都有各自的缺点。cow表是采用追加写的方式,每次写操作都会创建新的数据文件,这将导致数据文件的不断增长,从而影响写入性能,且文件系统的管理、存储和维护成本都将增大,查询性能也会降低。而在mor模式下,数据合并是基于“合并后读取”的模式,新写入的数据可能需要等待合并操作完成后才能对外部
...【技术保护点】
1.一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,包括:
2.根据权利要求1所述的一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,SQL查询语句解析,包括:
3.根据权利要求1所述的一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,建立嵌入层,是指Word2Vec模型构建、训练和应用,包括:
4.根据权利要求1所述的一种基于热点预测的Hudi异步数据聚类的方法,其特征在于,基于获取并解析后的SQL语句,采用训练好的基于在线学习算法的LSTM模型预测查询热点字段和查询热点表,包括:
5.根据权
...【技术特征摘要】
1.一种基于热点预测的hudi异步数据聚类的方法,其特征在于,包括:
2.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,sql查询语句解析,包括:
3.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,建立嵌入层,是指word2vec模型构建、训练和应用,包括:
4.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,基于获取并解析后的sql语句,采用训练好的基于在线学习算法的lstm模型预测查询热点字段和查询热点表,包括:
5.根据权利要求1所述的一种基于热点预测的hudi异步数据聚类的方法,其特征在于,采用训练好的基于在线学习算法的lstm模型预测查询热点字段和查询热点表,包括:
6.根据权利要求1所述的一种基于...
【专利技术属性】
技术研发人员:郭莹,杨晓晗,张秋萍,杨美红,吴晓明,潘景山,刘尚旭,张颖,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。