基于数据湖的自助式数据分析方法、装置和电子设备制造方法及图纸

技术编号:38215195 阅读:13 留言:0更新日期:2023-07-25 11:23
本发明专利技术提供了一种基于数据湖的自助式数据分析方法、装置和电子设备,该方法应用于数据处理技术领域,该方法包括:对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示数据资产的分布情况和各个数据资产之间的关系;根据所述元数据图数据库和所述数据资产地图,定位待分析数据;对所述待分析数据进行ETL作业,收集作业过程中的SQL语句信息;根据所述SQL语句信息,生成血缘图谱;根据所述血缘图谱,生成对所述待分析数据的分析结果。析结果。析结果。

【技术实现步骤摘要】
基于数据湖的自助式数据分析方法、装置和电子设备


[0001]本专利技术涉及数据处理
,特别是一种基于数据湖的自助式数据分析方法、装置和电子设备。

技术介绍

[0002]数据湖是一个集中式的存储库,用于存储任意规模的多个来源的结构化、半结构化和非结构化数据,为各类数字化应用提供数据服务。然而,现有的数据湖技术的元数据模型设计简单,存储位置分散,缺少相关工具,无法实现对数据的快速检索,相关的数据分析工作高度依赖于IT参与,用户无法快速了解湖中数据分布情况、数据样貌,不能直接分析得到相应数据价值。
[0003]因此,有必要开发一种基于数据湖的自助式数据分析方法、装置和电子设备,以实现快速准确地对数据湖中数据的数据定位与分析。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种基于数据湖的自助式数据分析方法、装置和电子设备,以便克服上述问题或者至少部分地解决上述问题。
[0005]本专利技术实施例第一方面提供了一种基于数据湖的自助式数据分析方法,所述方法包括:对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示存储数据资产的分布情况和各个数据资产之间的关系;根据所述元数据图数据库和所述数据资产地图,定位待分析数据;对所述待分析数据进行ETL作业,收集ETL作业过程中的SQL语句信息;根据所述SQL语句信息,生成血缘图谱;根据所述血缘图谱,生成对所述待分析数据的分析结果。
[0006]本实施例第二方面还提出了一种数据分析装置,所述装置包括:元数据图数据库生成模块,用于对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;数据资产地图生成模块,用于对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示数据资产的分布情况和各个数据资产之间的关系;定位模块,用于根据所述元数据图数据库和所述数据资产地图,定位待分析数据;作业模块,用于对所述待分析数据进行ETL作业,得到ETL作业过程中的SQL语句信息;血缘图谱生成模块,用于根据所述SQL语句信息,生成血缘图谱;
分析模块,用于根据所述血缘图谱,生成对所述待分析数据的分析结果。
[0007]本实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本专利技术实施例第一方面任一所述的基于数据湖的自助式数据分析方法中的步骤。
[0008]本专利技术实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本专利技术实施例第一方面任一所述的基于数据湖的自助式数据分析方法中的步骤。
[0009]本申请实施例第五方面提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面中任一所述的基于数据湖的自助式数据分析方法中的步骤。
[0010]本专利技术实施例提供的一种基于数据湖的自助式数据分析方法、装置和电子设备,该方法包括:对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示数据资产的分布情况和各个数据资产之间的关系;根据所述元数据图数据库和所述数据资产地图,定位待分析数据;对所述待分析数据进行ETL作业,收集ETL作业过程中的SQL语句信息;根据所述SQL语句信息,生成血缘图谱;根据所述血缘图谱,生成对所述待分析数据的分析结果。本申请实施例一方面通过创建元数据图数据库,以对数据湖的元数据信息进行统一管理,通过生成数据资产地图,理清数据资产的分布和关系,从而基于元数据图数据库和数据资产地图实现对数据的快速检索和定位。另一方面,在通过采集SQL语句信息,生成数据血缘图谱,根据血缘图谱,进行自动的数据分析,实现了快速准确的数据分析。
附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是本专利技术实施例提供的一种基于数据湖的自助式数据分析方法的步骤流程图;图2是本专利技术实施例提供的一种元数据图数据库的创建步骤流程图;图3是本专利技术实施例提供的一种数据资产地图的生成过程示意图;图4是本专利技术实施例提供的一种基于血缘图谱的数据分析过程示意图;图5是本专利技术实施例提供的一种自助式数据分析装置的结构示意图;图6是本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0013]下面将结合本专利技术实施例中的附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能
够将本专利技术的范围完整的传达给本领域的技术人员。
[0014]本实施例提出了一种基于数据湖的自助式数据分析方法,参照图1,图1示出了一种基于数据湖的自助式数据分析方法的步骤流程图,如图1所示,该方法包括:步骤S101,对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储。
[0015]元数据(Metadata),又称中介数据、中继数据,是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据也是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。本实施例中的元数据信息表示元数据在内的相关信息。需要注意的是,本实施例以及后续所有实施例中所提到的数据湖均表示基于Delta Lake技术构建的数据湖。
[0016]在相关技术中,Delta Lake数据湖中对元数据信息的管理主要依靠元数据模型执行。然而,现有的元数据模型设计简单,存储信息较少,一般将元数据信息存储在log文件中,基于文件的存储较为分散,在进行数据检索时,需要对文件一个一个进行遍历,从而导致检索效率较低,无法实现快速检索。
[0017]为了解决上述问题,本申请实施例对Delta Lake数据湖中的数据的元数据信息进行管理,对已入湖业务数据的分散元数据信息进行提取,根据自身业务流程设计的元数据模型进行封装,封装成一致的元数据模型对象,统一存储至元数据图数据库中,以图结构的方式对元数据信息进行存储,进行集中式管理,利用图数据库自身的快速数据检索功能,实现对数据的快速定位。
[0018]在一种可能的实施方式中,所述步骤S101,对数据湖的元数据信息进行管理,创建元数据图数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的自助式数据分析方法,其特征在于,所述方法包括:对数据湖的元数据信息进行管理,创建元数据图数据库,所述元数据图数据库以图结构的方式对所述元数据信息进行存储;对所述数据湖的数据进行分区分类,生成数据资产地图,所述数据资产地图以图形化的方式展示数据资产的分布情况和各个数据资产之间的关系;根据所述元数据图数据库和所述数据资产地图,定位待分析数据;对所述待分析数据进行ETL作业,收集ETL作业过程中的SQL语句信息;根据所述SQL语句信息,生成血缘图谱;根据所述血缘图谱,生成对所述待分析数据的分析结果。2.根据权利要求1所述的基于数据湖的自助式数据分析方法,其特征在于,所述对数据湖的元数据信息进行管理,创建元数据图数据库,包括:设计符合业务流程的元数据模型;对所述数据湖的已入湖业务数据进行文件目录遍历,解析所述文件目录中的log信息,得到基础元数据信息;所述基础元数据信息至少包括:数据修改行为信息,schema信息和数据存储位置信息;利用设计的所述元数据模型,对所述基础元数据信息进行数据融合,得到元模型对象;将所述元模型对象转化为图对象,存储在所述元数据图数据库中。3.根据权利要求2所述的基于数据湖的自助式数据分析方法,其特征在于,所述对所述基础元数据信息进行数据融合,得到元模型对象,包括:利用所述元数据模型,将所述基础元数据信息映射到元模型相应属性;根据用户输入的信息,为所述基础元数据信息添加其他元数据信息;将所述基础元数据信息封装为格式一致的元模型对象。4.根据权利要求1所述的基于数据湖的自助式数据分析方法,其特征在于,所述对所述数据湖的数据进行分区分类,生成数据资产地图,包括:对所述数据湖的数据进行类型识别,确定每个所述数据湖的数据的数据类型,所述数据类型包括:结构化数据类型、半结构化数据类型和非结构化数据类型;根据所述数据类型,对每个所述数据湖的数据进行数据湖落位推荐,对每个数据的元数据信息添加分区标签,得到落位后的数据;对所述落位后的数据进行分类汇聚,得到已分类数据,为所述已分类数据的元数据信息添加分类标签;根据所述分区标签和所述分类标签,生成所述数据资产地图。5.根据权利要求4所述的基于数据湖的自助式数据分析方法,其特征在于,在所述落位后的数据为结构化数据或半结构化数据的情况下,所述对落位后的数据进行分类汇聚,得到已分类数据,包括:对所述结构化数据或所述半结构化数据进行抽取、转换、加载,将所述结构化数据或所述半结构化数据汇聚到已分类存储的结构化数据中,得到所述已分类数据;在所述落位后的数据为非结构化数据的情况下,所述对落位后的数据进行分类汇聚,得到已分类数据,包括:利用文本主题分类模型对文本信息中无分类标记的所述非结构化数据进行数据主题
分类;利用文本主题分类规则,对文本信息中携带有分类标记的所述非结构化数据进行数据主题分类;将分类后的所述非结构化数据汇聚到已分类存储的非结构化数据中,得到所述已分类数据。6.根据权利要求1所述的基于数据湖的自助式...

【专利技术属性】
技术研发人员:杨国利韩宏伟秦伟李翔刘坤王强
申请(专利权)人:北京大数据先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1