数据仓库创建方法、电子设备及存储介质技术

技术编号:36370088 阅读:17 留言:0更新日期:2023-01-18 09:28
本申请提供一种数据仓库创建方法、电子设备及存储介质,所述方法包括:获取数据源;对所述数据源进行分析,生成数据概览;基于所述数据概览提取所述数据源的主题,得到多个主题表;根据所述数据概览为所述主题表建立数据映射关系;基于所述主题表及所述数据映射关系创建数据仓库。通过本申请可以提高数据仓库创建的效率。的效率。的效率。

【技术实现步骤摘要】
数据仓库创建方法、电子设备及存储介质


[0001]本申请涉及数据分析领域,尤其涉及一种数据仓库创建方法、电子设备及存储介质。

技术介绍

[0002]数据仓库的创建是现在大型企业数字化转型的重要基础。没有数据仓库时,需要直接从业务数据库中提取数据来做分析。业务数据库主要是为业务操作服务,虽然可以用于分析,但数据结构复杂,数据混乱,难以处理,缺少查询历史,进行大规模查询时进度缓慢。

技术实现思路

[0003]鉴于以上内容,有必要提供一种数据仓库创建方法、电子设备及存储介质,能提高数据仓库创建的效率。
[0004]本申请提供一种数据仓库创建方法,所述方法包括:获取数据源;对所述数据源进行分析,生成数据概览;基于所述数据概览提取所述数据源的主题,得到多个主题表;根据所述数据概览为所述主题表建立数据映射关系;基于所述主题表及所述数据映射关系创建数据仓库。
[0005]在一种可能的实现方式中,所述对所述数据源进行分析,生成数据概览包括:将所述数据源转化为数据表;获取所述数据表中有数值的第一字段并计算所述第一字段的数值分布;获取所述数据表中没有数值的第二字段并计算所述第二字段的pattern字符串;获取所述数据表在时间轴上的数据分布;将所述数值分布、所述pattern字符串和所述数据分布作为所述数据概览。
[0006]在一种可能的实现方式中,所述计算所述第二字段的pattern字符串包括:读取所述第二字段的字符;若所述字符为特殊字符、数字、字母或者中文中的任一种,将所述字符加入结果集;根据所述结果集得到所述pattern字符串。
[0007]在一种可能的实现方式中,所述基于所述数据概览提取所述数据源的主题,得到多个主题表包括:将所述数据表中的字段和所述数据概览中的字段输入至预先训练完成的主题模型中;通过所述主题模型输出所述数据表的主题;根据所述数据表和所述主题生成所述主题表。
[0008]在一种可能的实现方式中,所述根据所述数据概览为所述主题表建立数据映射关系包括:提取每个所述主题表对应的pattern字符串;从所述多个主题表中任意选定一个主题表作为第一主题表,未被选定的主题表作为第二主体表;计算所述第一主题表对应的pattern字符串和每个所述第二主题表对应的pattern字符串的相似度;将最大相似度对应的第二主题表与所述第一主题表建立数据映射关系。
[0009]在一种可能的实现方式中,所述根据所述数据概览为所述主题表建立数据映射关系包括:从所述多个主题表中任意选定一个主题表作为目标主题表,未被选定的主题表作
为非目标主题表;提取所述目标主题表在目标时间尺度上的第一数据分布,及每个所述非目标主题表在所述目标时间尺度上的第二数据分布;计算所述第一数据分布和所述第二数据分布的相似度;根据所述相似度为所述主题表建立数据映射关系。
[0010]在一种可能的实现方式中,所述计算所述第一数据分布和所述第二数据分布的相似度包括:计算所述第一数据分布和所述第二数据分布之间的皮尔逊相关系数;将所述皮尔逊相关系数作为所述相似度。
[0011]在一种可能的实现方式中,所述计算所述第一数据分布和所述第二数据分布的相似度包括:将所述第一数据分布和所述第二数据分布输入至预先训练完成的动态规划解算法模型;通过所述动态规划解算法模型输出所述第一数据分布和所述第二数据分布的相似距离;根据所述相似距离计算所述相似度。
[0012]本申请还提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的数据仓库创建方法。
[0013]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据仓库创建方法。
[0014]本申请公开的数据仓库创建方法及相关设备,通过建立主题表和数据映射关系,并根据所述主题表和所述数据映射关系创建数据仓库,使混乱的数据变得整齐,使产品咨询和数据分析更加快捷高效,面对问题可以集中进行分析。
附图说明
[0015]图1是本申请实施例提供的一种数据仓库创建方法的电子设备的结构示意图。
[0016]图2是本申请实施例提供的一种数据仓库创建方法的流程图。
[0017]图3是本申请实施例提供的一种示例性数据分布图。
具体实施方式
[0018]为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请进行详细描述。
[0019]请参阅图1,图1为本申请一实施例的电子设备的示意图。参阅图1所示,所述电子设备1包括,但不仅限于,存储器11和至少一个处理器12上述元件之间可以通过总线连接,也可以直接连接。
[0020]所述电子设备1可以是计算机、手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等安装有应用程序的设备。本领域技术人员可以理解,所述示意图1仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
[0021]如图2所示,是本申请数据仓库创建方法的较佳实施例的流程图。所述数据仓库创建方法应用在所述电子设备1中。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。在本实施方式中,所述数据仓库创建方法包括:
[0022]S21、获取数据源。
[0023]数据仓库建设是现在大型企业数字化转型的重要基础。没有数据仓库时,需要直
接从业务数据库中取数据来做分析。业务数据库主要是为业务操作服务,虽然可以用于分析,但数据结构复杂,数据混乱,难以理解,进行大规模查询时十分缓慢。在建设大型数据仓库时,主要分为三步,分别是数据概览、建立数据主题模型和建立数据映射,数据概览环节是建设数据仓库的基础环节,为了进行数据概览,需要获取业务数据的数据源。
[0024]在本申请的一个实施例中,通过将业务系统中的业务数据进行抽取、交互转换和加载来获取所述数据源。所述业务数据包括业务数据库、文件和API接口。所述数据源的数量可以根据用户的实际需求进行设定,例如,获取业务系统3

5个周期内的数据。
[0025]在本申请的一个实施例中,可以设置获取所述数据源的自动调度时间,根据所述自动调度时间来执行数据源获取任务,使业务数据可以自动化集成到数据仓库中。
[0026]S22、对所述数据源进行分析,生成数据概览。
[0027]在本申请的一个实施例中,数据概览作为后续分析的基础环节,主要计算三个内容:字段的数值分布、字段值的pattern及数据分布。
[0028]在本申请的一个实施例中,所述对所述数据源进行分析,生成数据概览包括:
[0029](1)将所述数据源转化为数据表。具体实施时,将所述业务数据库、所述文件和所述API接口转化为关系型的数据形式,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据仓库创建方法,其特征在于,所述数据仓库创建方法包括:获取数据源;对所述数据源进行分析,生成数据概览;基于所述数据概览提取所述数据源的主题,得到多个主题表;根据所述数据概览为所述主题表建立数据映射关系;基于所述主题表及所述数据映射关系创建数据仓库。2.根据权利要求1所述的数据仓库创建方法,其特征在于,所述对所述数据源进行分析,生成数据概览包括:将所述数据源转化为数据表;获取所述数据表中有数值的第一字段并计算所述第一字段的数值分布;获取所述数据表中没有数值的第二字段并计算所述第二字段的pattern字符串;获取所述数据表在时间轴上的数据分布;将所述数值分布、所述pattern字符串和所述数据分布作为所述数据概览。3.根据权利要求2所述的数据仓库创建方法,其特征在于,所述计算所述第二字段的pattern字符串包括:读取所述第二字段的字符;若所述字符为特殊字符、数字、字母或者中文中的任一种,将所述字符加入结果集;根据所述结果集得到所述pattern字符串。4.根据权利要求1所述的数据仓库创建方法,其特征在于,所述基于所述数据概览提取所述数据源的主题,得到多个主题表包括:将所述数据表中的字段和所述数据概览中的字段输入至预先训练完成的主题模型中;通过所述主题模型输出所述数据表的主题;根据所述数据表和所述主题生成所述主题表。5.根据权利要求4所述的数据仓库创建方法,其特征在于,所述根据所述数据概览为所述主题表建立数据映射关系包括:提取每个所述主题表对应的pattern字符串;从所述多个主题表中任意选定一个主题表作为第一主题表,未被选定的主题表作为第二主体表;计算所述第一主题表对应的pa...

【专利技术属性】
技术研发人员:王隆生王宇
申请(专利权)人:深圳富桂精密工业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1