数据动态自适应的分区管理数据仓库构建方法和系统技术方案

技术编号：37404614 阅读：31 留言：0更新日期：2023-04-30 09:31

本发明专利技术提供了一种数据动态自适应的分区管理数据仓库构建方法和系统，包括：步骤1：构建数据仓库的存储结构；步骤2：通过Rest网关向存储结构写入数据，并对写入数据进行分层；步骤3：根据热数据层文件个数，将批处理数据归并热数据至温数据层；步骤4：根据温数据层文件个数，对批处理数据温数据层进行内部归并；步骤5：根据温数据层文件大小，将批处理数据进行数据沉淀至冷数据层。本发明专利技术在保障了高存储性能的前提下，有效拓宽了分布式存储的适应场景。有效拓宽了分布式存储的适应场景。有效拓宽了分布式存储的适应场景。

全部详细技术资料下载

【技术实现步骤摘要】
数据动态自适应的分区管理数据仓库构建方法和系统

[0001]本专利技术涉及数据管理
，具体地，涉及一种数据动态自适应的分区管理数据仓库构建方法和系统。

技术介绍

[0002]随着工业的信息化与智能化发展推进，工业生产中产生的数据量，以及生产数据的价值，都在日益提升。出于工业场景考虑，妥善存储这些数据，面临着很大挑战。现有的基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言，通过标准的SQL接口使得传统的业务在少量改变甚至不改变代码的基础上平滑的切换到大数据平台。后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，Name Node可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。随着时间的推移，HDFS的文件数目就会逐渐增加。此外，HDFS读写小文件时也会更加耗时。
[0003]出于以上原因，现有的数据仓库系统无法满足应用需求，迫使我们探究更加适应工业场景的数据仓库系统。
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据动态自适应的分区管理数据仓库构建方法，其特征在于，包括：步骤1：构建数据仓库的存储结构；步骤2：通过Rest网关向存储结构写入数据，并对写入数据进行分层；步骤3：根据热数据层文件个数，将批处理数据归并热数据至温数据层；步骤4：根据温数据层文件个数，对批处理数据温数据层进行内部归并；步骤5：根据温数据层文件大小，将批处理数据进行数据沉淀至冷数据层。2.根据权利要求1所述的数据动态自适应的分区管理数据仓库构建方法，其特征在于，所述步骤1包括：根据数据写入时间和写入方式将数据存储在不同目录下，分区包括热数据层、温数据层、冷数据层和大文件沉淀层；其中，热数据层分区数据格式为text file，其余分区数据格式为Parquet。3.根据权利要求2所述的数据动态自适应的分区管理数据仓库构建方法，其特征在于，所述步骤2包括：数据写入方式包括：批处理数据和离线文件加载；批处理数据通过Rest网关写入数据至数据缓存层，Spark Streaming程序框架创建热数据层分区，设置分区数据格式，消费数据缓存层的数据，并将数据写入分布式文件系统HDFS的热数据层；离线文件加载数据通过Rest网关提交计算引擎Spark数据处理任务，写入分布式文件系统HDFS的大文件沉淀层。4.根据权利要求1所述的数据动态自适应的分区管理数据仓库构建方法，其特征在于，所述步骤3包括：在将批处理数据写入热数据时，根据热数据层文件个数判断是否需要归并热数据，若文件个数达到预设阈值，则先将热数据归并至温数据层，并删除热数据层文件，然后再写入新数据；所述步骤4包括：在将热数据归并至温数据层时，根据温数据层文件个数判断是否需要进行温数据层内部归并，若文件个数达预设到阈值，则先将温数据层内原文件进行再次归并，然后再将热数据归并至温数据层。5.根据权利要求1所述的数据动态自适应的分区管理数据仓库构建方法，其特征在于，所述步骤5包括：在将温数据层进行内部归并后，根据温数据层文件大小判断是否需要将数据沉淀至冷数据层，若文件大小达到预设阈值，则将温数据沉淀至冷数据层，并删除温数据层文件。6.一种数据动态自适应的...

【专利技术属性】
技术研发人员：李亚贝，黄明，朱森，李帅，吴莉珊，万英杰，
申请(专利权)人：上海宝信软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人