一种数据仓库用数据清理及更新系统技术方案

技术编号:45572511 阅读:10 留言:0更新日期:2025-06-20 21:55
本发明专利技术涉及数据仓库领域,具体为一种数据仓库用数据清理及更新系统,其包括:运行负荷检测模块,用来检测系统的运行负荷;数据分组管理模块,将待处理数据进行分组,形成多个数据集,并将数据集按照重要程度从高到低分成三类,分别为关键数据、重要数据和一般数据;负荷预估模块,用来预估特定数据集在开始进行数据处理及更新后给系统运行负荷造成的增加量;以及策略制定模块,根据系统当前运行负荷来执行不同数据集的清理及更新操作。本发明专利技术中,实时检测系统的运行负荷,并结合预估的系统运行负荷增加量,设置执行策略,分开执行不同数据集的数据清理及更新操作,避免数据集进行清理及更新时造成系统运行负荷过大,影响用户使用体验。

【技术实现步骤摘要】

本专利技术涉及数据仓库,尤其涉及一种数据仓库用数据清理及更新系统


技术介绍

1、数据仓库是一种用于存储、管理和分析大量数据的系统,它设计用于支持企业级的数据分析和决策制定。数据仓库的核心目的是将来自不同来源的数据整合到一个中央位置,以便于查询和分析。数据仓库的数据需要合理地进行清理及更新,来保持数据仓库的功能。

2、公开号为cn119128022a的中国专利公开了一种数据仓库中的数据处理方法、装置、电子设备及存储介质。数据仓库中的数据处理方法包括:获取数据仓库中的数仓hive表,hive表中存储有hdfs元数据;基于hdfs元数据生成第一数据表,并获取hdfs元数据对应的生命周期元数据,第一数据表中按照数据库字段、访问字段以及分区字段对hdfs元数据进行聚类存储;基于访问字段、分区字段以及生命周期元数据,对第一数据表中对应数据库字段的数据库中的hdfs元数据进行清理或保留。通过本公开,能够有效地管理存储空间,降低存储成本。

3、但是上述已公开方案存在如下不足之处:通过为不同的数据自定义生命周期后,定期基于生命周期清理数据,实现动态本文档来自技高网...

【技术保护点】

1.一种数据仓库用数据清理及更新系统,包括数据采集模块、数据清理模块和数据更新模块,数据采集模块用来获取需要录入数据仓库内的多源数据,数据清理模块用来对数据进行清理,数据更新模块用来将清理后的数据更新至数据仓库中;其特征在于,还包括:

2.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于,数据清理包括数据标准化、数据验证、数据去重、数据修正、数据脱敏、数据转换、数据清洗和数据整合。

3.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于,还包括监控模块,用来监控数据清理和数据更新过程中的状态,并生成关于数据质量、更新状态和异常情况的相关报告。...

【技术特征摘要】

1.一种数据仓库用数据清理及更新系统,包括数据采集模块、数据清理模块和数据更新模块,数据采集模块用来获取需要录入数据仓库内的多源数据,数据清理模块用来对数据进行清理,数据更新模块用来将清理后的数据更新至数据仓库中;其特征在于,还包括:

2.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于,数据清理包括数据标准化、数据验证、数据去重、数据修正、数据脱敏、数据转换、数据清洗和数据整合。

3.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于,还包括监控模块,用来监控数据清理和数据更新过程中的状态,并生成关于数据质量、更新状态和异常情况的相关报告。

4.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于,运行负荷检测模块检测的内容包括cpu使用率、内存占用率和磁盘使用率,为cpu使用率、内存占用率和磁盘使用率分别分配需要的权重,通过权重和对应内容相乘,再将相乘后得到的三个数值相加得到当前系统的运行负荷。

5.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于,数据分组管理模块的分组依据包括按业务相关性分组,按数据特征分组,按数据规模分组,按安全合规性分组,按数据用途分组。

6.根据权利要求1所述的数据仓库用数据清理及更新系统,其特征在于...

【专利技术属性】
技术研发人员:黎明张飞飞曾超姚杰韩达
申请(专利权)人:上海东方龙新媒体有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1