维度清洗方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:28035000 阅读:30 留言:0更新日期:2021-04-09 23:17
本申请实施例属于大数据领域,涉及一种维度清洗方法,包括获取待清洗字段;读取所述待清洗字段的字段属性;根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。本申请还提供一种维度清洗装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,维度清洗结果可存储于区块链中。本申请提高了维度清洗的准确性。

【技术实现步骤摘要】
维度清洗方法、装置、计算机设备及存储介质
本申请涉及大数据
,尤其涉及一种维度清洗方法、装置、计算机设备及存储介质。
技术介绍
随着大数据技术的发展,数据集市的使用也越来越广泛。数据集市可以满足特定部门或用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。数据集市中的数据可以来自于数据仓库,数据仓库向数据集市提供的数据需要经过数据建模,而字段的维度清洗又是数据建模中非常关键的一环。字段的维度清洗是指,输入业务系统某一维度下的字段,归约得到数据分析场景中包含多个层级的规范化维度信息。传统的维度清洗技术通常使用SQL语句,操作复杂,清洗效率较低,且由于业务场景的多样性,维度种类繁多,容易引入维度归约错误的清洗代码,使得维度清洗的准确性较低。
技术实现思路
本申请实施例的目的在于提出一种维度清洗方法、装置、计算机设备及存储介质,以解决维度清洗准确性较低的问题。为了解决上述技术问题,本申请实施例提供一种维度清洗方法,采用了如下所述的技术方案:本文档来自技高网...

【技术保护点】
1.一种维度清洗方法,其特征在于,包括下述步骤:/n获取待清洗字段;/n读取所述待清洗字段的字段属性;/n根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;/n通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。/n

【技术特征摘要】
1.一种维度清洗方法,其特征在于,包括下述步骤:
获取待清洗字段;
读取所述待清洗字段的字段属性;
根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;
通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。


2.根据权利要求1所述的维度清洗方法,其特征在于,在所述根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略的步骤之前还包括:
获取预设字段属性;
接收针对所述预设字段属性的预设清洗策略;
将所述预设字段属性和所述预设清洗策略对应存储。


3.根据权利要求2所述的维度清洗方法,其特征在于,所述接收针对所述字段属性的清洗策略的步骤包括:
当接收到触发的策略配置指令时,通过终端展示策略配置页面;
通过所述终端接收所述策略配置页面的策略配置模板中录入的策略配置信息,所述策略配置模板与所述预设字段属性相对应;
根据所述策略配置信息生成针对所述预设字段属性的预设清洗策略。


4.根据权利要求1所述的维度清洗方法,其特征在于,所述通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果的步骤包括:
将所述待清洗字段作为当前清洗字段,从所述清洗策略中读取与所述当前清洗字段对应的归约策略;
根据所述归约策略对所述当前清洗字段进行维度归约,得到归约字段,所述归约字段与所述维度等高树中的一结点相匹配;
获取所述归约字段的归约属性;
根据所述归约属性、所述维度等高树以及所述清洗策略对所述归约字段进行维度归约,得到维度清洗结果。


5.根据权利要求4所述的维度清洗方法,其特征在于,所述根据所述归约属性、所述维度等高树以及所述清洗策略对所述归约字段进行维度归约,得到维度清洗结果的步骤包括:
当通过所述归约属性确定所述归约字段为连续归约字段时,在所述维度等高树中确...

【专利技术属性】
技术研发人员:徐兵
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1