一种数据建模方法及设备技术

技术编号:15746655 阅读:165 留言:0更新日期:2017-07-03 02:26
本申请公开了一种数据建模方法。在根据各来源表的元数据确定用于数据建模的主表以及根据主表的业务含义确定通过数据建模生成的目标表的类型后,根据主表的元数据确定用于数据建模的从表,并从主表以及从表中选择用于数据建模的字段,最后根据主表、从表以及字段进行数据建模,生成所述目标表。从而能够基于数据表的元数据准确地进行数据建模,保证了数据建模结果的准确性以及效率。

Data modeling method and equipment

The present application discloses a data modeling method. According to the source table in the metadata for the main table of data modeling and according to the meaning of the main table is determined by the type of the target table data generated after modeling, for modeling data from the table according to the metadata of the main table, and from the main table, from the table select fields for data modeling, according to the main table, data modeling and field generated from the table, the target table. Thus, the data model can be accurately modeled based on the metadata of the data table, and the accuracy and efficiency of the data modeling result can be guaranteed.

【技术实现步骤摘要】
一种数据建模方法及设备
本申请涉及通信
,特别涉及一种数据建模方法。本申请同时还涉及一种数据建模设备。
技术介绍
随着网络技术的不断发展,数据库已经在信息
有了广泛的应用。在社会生活的各个部门几乎都有各种各样的数据库保存着与人们的生活息息相关的各种数据。为了对数据进行统一的管理以提供更好的服务,数据仓库应运而生。数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport),出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据建模是建设数据仓库的重要过程之一,数据建模指的是对现实世界各类数据的抽象组织,确定数据仓库需管辖的范围、数据的组织形式等直至转化成现实的数据仓库。通过将数据仓库模型建设进行工具化处理,可以解决业界长期以来经验建模和人肉建模的问题,同时在集团内部可以更好地服务集团数据公共层建设和优化。在进行数据建模的过程中,对于业务不了解的数据模型师一般首先会进行下游使用情况调研,随后再根据调研结果进行数据建模。由于对下游使用情况调研需要耗费大量的人力,因此该方式效率低且调研不充分,从而导致事倍功半。而对于业务了解的数据模型师一般采用基于经验的建模方式。然而该方式由于没有数据化的指导,因此无法保证建模的准确度。由此可见,如何在保证准确性的前提下快速进行数据建模处理,成为本领域技术人员亟待解决的技术问题
技术实现思路
本申请提供了一种数据建模方法,用以提高数据建模的准确定以及建模效率。该方法包括:根据各来源表的元数据确定用于数据建模的主表;根据所述主表的业务含义确定通过所述数据建模生成的目标表的类型;根据所述主表的元数据确定用于数据建模的从表;从所述主表以及所述从表中选择用于数据建模的字段;根据所述主表、所述从表以及所述字段进行数据建模,生成所述目标表。优选地,根据所述主表的业务含义确定通过所述数据建模生成的目标表的类型,具体为:若根据所述主表的业务含义确定所述目标表的类型为所述事实表,根据所述主表的元数据确定所述事实表的具体类型,所述具体类型包括:事务型事实表、周期快照事实表以及累积快照事实表;若根据所述主表的业务含义确定所述目标表的类型为所述维表,根据所述主表的元数据确定所述维表是否需要进行拆分以及拆分方式,所述拆分方式包括:水平拆分以及垂直拆分。优选地,所述元数据包括下游使用信息,根据所述主表的元数据确定用于数据建模的从表,具体为:根据所述下游使用信息获取与所述主表具有关联的数据表;获取所述主表与各所述数据表之间的关联信息,并将与预设的选择策略匹配的关联信息对应的数据表作为所述从表。优选地,从所述主表以及所述从表中选择用于数据建模的字段,具体为:根据所述元数据分别获取所述主表以及所述从表的字段使用情况信息;根据所述字段使用情况信息选取所述字段;其中,所述字段使用情况信息至少包括:字段查询次数、过滤条件次数、关联次数、聚合统计次数、空值占比、枚举值占比。优选地,在根据所述主表、所述从表以及所述字段进行数据建模之前,还包括:当所述目标表为所述事务型事实表时,根据所述下游使用信息对所述主表的业务过程进行打标,确定生成单事件事实表或多事件事实表;当所述目标表为所述累积快照事实表,按照所述事务型事实表对所述主表的业务过程进行打标,并将当前用于所述数据建模的其他事实表的业务过程进行打标;当所述目标表为所述维表且所述拆分方式为所述水平拆分时,根据所述主表的字段使用情况信息将所述主表水平拆分为多个维表;当所述目标表为所述维表且所述拆分方式为所述垂直拆分时,根据所述主表与各所述从表之间的关联信息,将业务变化高于预设阈值的从表与所述主表通过所述数据建模生成核心维表,以及将业务变化不高于预设阈值的从表通过所述数据建模生成自定义维表。相应地,本申请还提出了一种数据建模设备,包括:第一确定模块,根据各来源表的元数据确定用于数据建模的主表;第二确定模块,根据所述主表的业务含义确定通过所述数据建模生成的目标表的类型;第三确定模块,根据所述主表的元数据确定用于数据建模的从表;选择模块,从所述主表以及所述从表中选择用于数据建模的字段;建模模块,对所述主表、所述从表以及所述字段进行数据建模,生成所述目标表。优选地,所述第二确定模块具体用于:若根据所述主表的业务含义确定所述目标表的类型为所述事实表,根据所述主表的元数据确定所述事实表的具体类型,所述具体类型包括:事务型事实表、周期快照事实表以及累积快照事实表;若根据所述主表的业务含义确定所述目标表的类型为所述维表,根据所述主表的元数据确定所述维表是否需要进行拆分以及拆分方式,所述拆分方式包括:水平拆分以及垂直拆分。优选地,所述元数据包括下游使用信息,所述第三确定模块具体用于:根据所述下游使用信息获取与所述主表具有关联的数据表;获取所述主表与各所述数据表之间的关联信息,并将与预设的选择策略匹配的关联信息对应的数据表作为所述从表。优选地,所述选择模块具体用于:根据所述元数据分别获取所述主表以及所述从表的字段使用情况信息;根据所述字段使用情况信息选取所述字段;其中,所述字段使用情况信息至少包括:字段查询次数、过滤条件次数、关联次数、聚合统计次数、空值占比、枚举值占比。优选地,还包括处理模块,其中:当所述目标表为所述事务型事实表时,所述处理模块根据所述下游使用信息对所述主表的业务过程进行打标,确定生成单事件事实表或多事件事实表;当所述目标表为所述累积快照事实表,所述处理模块按照所述事务型事实表对所述主表的业务过程进行打标,并将当前用于所述数据建模的其他事实表的业务过程进行打标;当所述目标表为所述维表且所述拆分方式为所述水平拆分时,所述处理模块根据所述主表的字段使用情况信息将所述主表水平拆分为多个维表;当所述目标表为所述维表且所述拆分方式为所述垂直拆分时,根据所述主表与各所述从表之间的关联信息,所述处理模块将业务变化高于预设阈值的从表与所述主表通过所述数据建模生成核心维表,以及将业务变化不高于预设阈值的从表通过所述数据建模生成自定义维表。由此可见,通过应用本申请的技术方案,在根据各来源表的元数据确定用于数据建模的主表以及根据主表的业务含义确定通过数据建模生成的目标表的类型后,根据主表的元数据确定用于数据建模的从表,并从主表以及从表中选择用于数据建模的字段,最后根据主表、从表以及字段进行数据建模,生成所述目标表。从而能够基于数据表的元数据准确地进行数据建模,保证了数据建模结果的准确性以及效率。附图说明图1为本申请提出的一种数据建模方法的流程示意图;图2为本申请具体实施例中来源表与目标表的关系示意图;图3为本申请具体实施例中主要模块示意图;图4为本申请具体实施例中元数据加工模块的结构示意图;图5为本申请具体实施例中进行数据建模的流程示意图;图6为本申请提出的一种数据建模设备的结构示意图。具体实施方式在现有的数据仓库建模领域中,数据仓库模型设计主要包括“Inmon的第三范式建模”以及“Kimball的维度建模”这两个流本文档来自技高网
...
一种数据建模方法及设备

【技术保护点】
一种数据建模方法,其特征在于,包括:根据各来源表的元数据确定用于数据建模的主表;根据所述主表的业务含义确定通过所述数据建模生成的目标表的类型;根据所述主表的元数据确定用于数据建模的从表;从所述主表以及所述从表中选择用于数据建模的字段;根据所述主表、所述从表以及所述字段进行数据建模,生成所述目标表。

【技术特征摘要】
1.一种数据建模方法,其特征在于,包括:根据各来源表的元数据确定用于数据建模的主表;根据所述主表的业务含义确定通过所述数据建模生成的目标表的类型;根据所述主表的元数据确定用于数据建模的从表;从所述主表以及所述从表中选择用于数据建模的字段;根据所述主表、所述从表以及所述字段进行数据建模,生成所述目标表。2.如权利要求1所述的方法,其特征在于,根据所述主表的业务含义确定通过所述数据建模生成的目标表的类型,具体为:若根据所述主表的业务含义确定所述目标表的类型为所述事实表,根据所述主表的元数据确定所述事实表的具体类型,所述具体类型包括:事务型事实表、周期快照事实表以及累积快照事实表;若根据所述主表的业务含义确定所述目标表的类型为所述维表,根据所述主表的元数据确定所述维表是否需要进行拆分以及拆分方式,所述拆分方式包括:水平拆分以及垂直拆分。3.如权利要求2所述的方法,其特征在于,所述元数据包括下游使用信息,根据所述主表的元数据确定用于数据建模的从表,具体为:根据所述下游使用信息获取与所述主表具有关联的数据表;获取所述主表与各所述数据表之间的关联信息,并将与预设的选择策略匹配的关联信息对应的数据表作为所述从表。4.如权利要求1所述的方法,其特征在于,从所述主表以及所述从表中选择用于数据建模的字段,具体为:根据所述元数据分别获取所述主表以及所述从表的字段使用情况信息;根据所述字段使用情况信息选取所述字段;其中,所述字段使用情况信息至少包括:字段查询次数、过滤条件次数、关联次数、聚合统计次数、空值占比、枚举值占比。5.如权利要求3或4任一项所述的方法,其特征在于,在根据所述主表、所述从表以及所述字段进行数据建模之前,还包括:当所述目标表为所述事务型事实表时,根据所述下游使用信息对所述主表的业务过程进行打标,确定生成单事件事实表或多事件事实表;当所述目标表为所述累积快照事实表,按照所述事务型事实表对所述主表的业务过程进行打标,并将当前用于所述数据建模的其他事实表的业务过程进行打标;当所述目标表为所述维表且所述拆分方式为所述水平拆分时,根据所述主表的字段使用情况信息将所述主表水平拆分为多个维表;当所述目标表为所述维表且所述拆分方式为所述垂直拆分时,根据所述主表与各所述从表之间的关联信息,将业务变化高于预设阈值的从表与所述主表通过所述数据建模生成核心维表,以及将业务变化不高于预设阈值的从表通过所述数据建模生成自定...

【专利技术属性】
技术研发人员:王赛赵唯行王永伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1