一种基于数据湖的数据处理方法及系统技术方案

技术编号:34467492 阅读:46 留言:0更新日期:2022-08-10 08:40
本发明专利技术公开了一种基于数据湖的数据处理方法及系统,应用于包括数据仓库的平台中,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。能避免数据来源错误的问题,提高数据处理效率,能实时准确监控数据质量,出现问题时及时发现。时及时发现。时及时发现。

【技术实现步骤摘要】
一种基于数据湖的数据处理方法及系统


[0001]本申请涉及数据处理
,更具体地,涉及一种基于数据湖的数据处理方法及系统。

技术介绍

[0002]现有的数据湖数据处理技术中,数据来源经常性发生错误,导致外部数据或其它非业务数据进入数据湖,且数据质量不能得到准确监控,字段质量较低,使得数据湖处理数据的效率降低。
[0003]因此,如何提高数据质量检测的准确性,是目前有待解决的技术问题。

技术实现思路

[0004]本专利技术提供一种基于数据湖的数据处理方法,用以解决现有技术中数据质量检测准确性低的技术问题。该方法应用于包括数据仓库的平台中,该方法包括:基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的数据处理方法,其特征在于,应用于包括数据仓库的平台中,所述方法包括:基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和JDBC的方式对外开放。2.如权利要求1所述的方法,其特征在于,在将数据源文件导入数据湖前,所述方法还包括:若源数据来源于本地上传,则将所述数据导入数据湖;若源数据来源于线上传输,则判断所述线上传输来源;若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。3.如权利要求1所述的方法,其特征在于,所述方法还包括:若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;其中,重复性较高为字段中字节出现次数超过固定值。4.如权利要求3所述的方法,其特征在于,对所述贴源表到维度建模的需监控字段进行校验,具体为:若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。5.如权利要求1所述的方法,其特征在于,所述方法还包括:基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。6.一种基于数据湖的数据处理系统,其特征在于,应用于...

【专利技术属性】
技术研发人员:徐银领韩亮陈佳刘鲁清吴家乐韩杰娇杜万波孟子涵
申请(专利权)人:华能信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1