一种宽表的生成方法、装置、设备和存储介质制造方法及图纸

技术编号:37587287 阅读:8 留言:0更新日期:2023-05-18 11:02
本说明书实施方式提供了一种宽表的生成方法、装置、设备和存储介质。所述方法包括:获取多个数据表以及多个数据表之间的数据传输关系;基于多个数据表以及多个数据表之间的数据传输关系生成读写关系图;其中,读写关系图包括表示数据表的图节点和表示数据表之间的数据传输关系的边数据;对读写关系图的图节点进行聚类运算,得到多个聚类簇;每个聚类簇包括的数据表分为基础表和基于基础表生成的衍生表;每个聚类簇中基础表的基础字段形成基础字段集合,以及每个聚类簇中衍生表的衍生字段形成衍生字段集合;将每个聚类簇的基础字段集合中的基础字段,与衍生字段集合中的衍生字段,拼成每个聚类簇对应的宽表,可以提高数据表的数据治理效率。表的数据治理效率。表的数据治理效率。

【技术实现步骤摘要】
一种宽表的生成方法、装置、设备和存储介质


[0001]本说明书中实施方式关于数据处理
,具体涉及一种宽表的生成方法、装置、设备和存储介质。

技术介绍

[0002]数据治理是涉及数据使用的一整套管理行为,通过数据治理,可以提升数据的价值。目前,数据治理主要通过人工手动从原始表中提取有价值的字段构建字段宽表。
[0003]但是,当待处理的原始表较多时,人工构建字段宽表的速度较慢、效率较低、耗时较长。因此,现有技术中存在宽表构建过程耗时长导致的数据治理效率低的技术问题。

技术实现思路

[0004]有鉴于此,本说明书多个实施方式致力于提供一种宽表的生成方法、装置、设备和存储介质,以一定程度上减少数据排序的工作量。
[0005]本说明书中多个实施方式提供一种宽表的生成方法,所述方法包括:获取多个数据表以及所述多个数据表之间的数据传输关系;基于所述多个数据表以及所述多个数据表之间的数据传输关系生成读写关系图;其中,所述读写关系图包括表示数据表的图节点和表示数据表之间的数据传输关系的边数据;对所述读写关系图的图节点进行聚类运算,得到多个聚类簇;其中,每个聚类簇包括所述多个数据表中的部分数据表,每个聚类簇包括的数据表分为基础表和基于所述基础表生成的衍生表;所述基础表具有多个基础字段,所述衍生表具有至少一个衍生字段;其中,每个聚类簇中基础表的基础字段形成基础字段集合,以及每个聚类簇中衍生表的衍生字段形成衍生字段集合;将每个聚类簇的所述基础字段集合中的基础字段,与衍生字段集合中的衍生字段,拼成每个聚类簇对应的宽表。
[0006]本说明书的一个实施方式提供一种宽表的生成装置,所述装置包括获取模块、构图模块、聚类模块和处理模块;获取模块,用于获取多个数据表以及所述多个数据表之间的数据传输关系;构图模块,用于基于所述多个数据表以及所述多个数据表之间的数据传输关系生成读写关系图;其中,所述读写关系图包括表示数据表的图节点和表示数据表之间的数据传输关系的边数据;聚类模块,用于对所述读写关系图的图节点进行聚类运算,得到多个聚类簇;其中,每个聚类簇包括所述多个数据表中的部分数据表,每个聚类簇包括的数据表分为基础表和基于所述基础表生成的衍生表;所述基础表具有多个基础字段,所述衍生表具有至少一个衍生字段;其中,每个聚类簇中基础表的基础字段形成基础字段集合,以及每个聚类簇中衍生表的衍生字段形成衍生字段集合;处理模块,用于将每个聚类簇的所述基础字段集合中的基础字段,与衍生字段集合中的衍生字段,拼成每个聚类簇对应的宽表。
[0007]本说明书实施方式提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述的方法。
[0008]本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述
计算机程序被处理器执行时实现上述任一实施方式所述的方法。
[0009]本说明书提供的多个实施方式,通过获取多个数据表以及所述多个数据表之间的数据传输关系,构建多个数据表的包括图节点和边数据的读写关系图,对所述读写关系图的图节点进行聚类分簇,得到多个聚类簇,并对同一个聚类簇中的数据表进行划分为基础表和衍生表,基于基础表和衍生表,确定每个聚类簇的基础字段集合和衍生字段集合,将每个聚类簇的基础字段集合中的基础字段和衍生字段集合中的衍生字段,拼成每个聚类簇对应的宽表,从而可以提高数据表的数据治理效率。
附图说明
[0010]图1为本说明书的一个实施方式提供的宽表的生成系统的示意图。
[0011]图2为本说明书的一个实施方式提供的宽表的生成方法的流程的示意图。
[0012]图3为本说明书的一个实施方式提供的数据表的读写关系图。
[0013]图4为本说明书的一个实施方式提供的数据表的聚类结果的示意图。
[0014]图5为本说明书的一个实施方式提供的数据表的分类方法的示意图。
[0015]图6为本说明书的一个实施方式提供的宽表的生成装置的示意图。
[0016]图7为本说明书的一个实施方式提供的计算机设备的示意图。
具体实施方式
[0017]为了使本
的人员更好地理解本说明书方案,下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本说明书保护的范围。
[0018]在相关技术中,数据治理通常是针对具体的业务需求,对获取的原始数据表中的有价值的字段进行字段提取、加工,从而根据业务需求构建宽表,进而提升数据价值的数据处理行为。但是,当待处理的原始数据表较多时,现有的构建字段宽表的过程中,会存在宽表构建过程耗时长导致的数据治理效率低的技术问题。
[0019]另外,在实际风控业务中的字段加工环节存在的字段跨层引用、衍生字段重复加工和存储的情况而导致的字段宽表无序衍生和重复存储的问题。
[0020]因此,有必要提供一种宽表的生成方法,通过获取多个数据表以及所述多个数据表之间的数据传输关系,构建多个数据表的包括图节点和边数据的读写关系图,对所述读写关系图的图节点进行聚类分簇,得到多个聚类簇,并对同一个聚类簇中的数据表进行划分为基础表和衍生表,基于基础表和衍生表,确定每个聚类簇的基础字段集合和衍生字段集合,将每个聚类簇的基础字段集合中的基础字段和衍生字段集合中的衍生字段,拼成每个聚类簇对应的宽表,从而可以提高数据表的数据治理效率。
[0021]请参阅图1。本说明书实施方式提供一种宽表的生成系统。宽表的生成系统可以包括客户端。客户端可以获取数据表,并对获取的数据表构建宽表。客户端可以是具有网络访问能力的电子设备。具体的,例如,客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中,智能可穿戴
设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者,客户端也可以为能够运行于所述电子设备中的软件。
[0022]一些实施方式中,宽表的生成系统可以包括服务器。服务器可以获取数据表,并对获取的数据表构建宽表。服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然,服务器也可以是指运行于所述电子设备中的软体。服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。
[0023]一些实施方式中,宽表的生成系统可以包括客户端和服务器。通过服务器可以对客户端获取的数据表构建宽表。
[0024]请参阅图2,本说明书的一个实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种宽表的生成方法,其特征在于,所述方法包括:获取多个数据表以及所述多个数据表之间的数据传输关系;基于所述多个数据表以及所述多个数据表之间的数据传输关系生成读写关系图;其中,所述读写关系图包括表示数据表的图节点和表示数据表之间的数据传输关系的边数据;对所述读写关系图的图节点进行聚类运算,得到多个聚类簇;其中,每个聚类簇包括所述多个数据表中的部分数据表,每个聚类簇包括的数据表分为基础表和基于所述基础表生成的衍生表;所述基础表具有多个基础字段,所述衍生表具有至少一个衍生字段;其中,每个聚类簇中基础表的基础字段形成基础字段集合,以及每个聚类簇中衍生表的衍生字段形成衍生字段集合;将每个聚类簇的所述基础字段集合中的基础字段,与衍生字段集合中的衍生字段,拼成每个聚类簇对应的宽表。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个数据表以及所述多个数据表之间的数据传输关系生成读写关系图之前,所述方法还包括:确定所述多个数据表中的每个数据表的字段集合;基于所述多个数据表之间的数据传输关系,以及每个数据表的字段集合,确定所述多个数据表之间的相似度;基于预设相似度阈值和所述多个数据表之间的相似度,对所述多个数据表之间的数据传输关系进行筛选,得到筛选后的多个数据表之间的数据传输关系。3.根据权利要求2所述的方法,其特征在于,所述基于预设相似度阈值和所述多个数据表之间的相似度值,对所述多个数据表之间的数据传输关系进行筛选,包括:在所述多个数据表中的任意两个数据表之间的相似度值小于所述预设相似度阈值的情况下,将所述两个数据表之间的相似度值对应的所述两个数据表之间的数据传输关系进行剔除。4.根据权利要求1所述的方法,其特征在于,所述基于所述多个数据表以及所述多个数据表之间的数据传输关系生成读写关系图之前,所述方法还包括:在所述多个数据表之间的数据传输关系中存在自依赖型数据传输关系的情况下,将所述自依赖型数据传输关系进行剔除;其中,所述自依赖型数据传输关系为仅关联所述多个数据表中的一个的数据传输关系。5.根据权利要求1所述的方法,其特征在于,所述获取多个数据表以及所述多个数据表之间的数据传输关系,包括:获取所述多个数据表以及每个数据表的血缘数据;其中,所述血缘数据用于表示数据表之间的血缘关系;根据每个数据表的血缘数据表示的血缘关系,确定所述多个数据表之...

【专利技术属性】
技术研发人员:范昌盛周家林吴海英王思远蒋宁
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1