数据识别的方法、系统、设备及存储介质技术方案

技术编号:35736636 阅读:24 留言:0更新日期:2022-11-26 18:38
本申请提出一种数据识别的方法、系统、设备及存储介质,该方法包括:通过应用本申请的技术方案,能够实现从多个数据库中自动获取其中稳定性较高的数据表,并从该稳定性较高的数据表与其他数据表中选取二者包含的稳定性较高以及相互之间存在一定共享关系的字段对。以使后续从该字段对中找到其中包含的主数据。本申请的技术方案一方面可以保证筛取到的主数据的高稳定性以及高引用性。另一方面也可以避免相关技术中出现的,只能依靠人工识别方式来识别数据库中的主数据而导致的工作效率低下的问题。的问题。的问题。

【技术实现步骤摘要】
数据识别的方法、系统、设备及存储介质


[0001]本申请属于计算机
,具体涉及一种数据识别的方法、系统、设备及存储介质。

技术介绍

[0002]主数据是企业内部各个系统之间共享的核心数据。主数据与日志型、事务型数据相比,它具有全局共享性、稳定性等显著特点。
[0003]相关技术中,主数据的准确识别能够在企业内部的工作处理流程中,确保工作系统之间信息传递的高效一致,有效降低信息传递的成本,对于企业数字化过程的价值很大。
[0004]然而,由于相关技术中的主数据分散在多个内部数据库之间,这也导致通常只能由工作人员从庞杂的数据库中手动圈定其中的主数据,这也导致主数据识别的效率不高。

技术实现思路

[0005]本申请提出一种数据识别的方法、系统、设备及存储介质,可以解决相关技术中出现的,只能依靠人工识别方式来识别多数据库中存在的主数据而导致的工作效率低下的问题。
[0006]本申请第一方面实施例提出了一种数据识别的方法,所述方法包括:
[0007]从多个数据库中获取稳定性高于预设稳定性标准的第一数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据识别的方法,其特征在于,包括:从多个数据库中获取稳定性高于预设稳定性标准的第一数据表,以及获取第二数据表,所述第二数据表与所述第一数据表属于不同的数据库;基于所述第一数据表与所述第二数据表,获取至少一个满足数据引用关系的相似字段对,其中所述相似字段对由所述第一数据表中的第一表头字段以及所述第二数据表中的第二表头字段所组成;基于所述相似字段对,识别所述多个数据库中的主数据。2.根据权利要求1所述的方法,其特征在于,所述从多个数据库中获取稳定性高于预设稳定性标准的第一数据表,包括:从多个数据库中获取至少一个数据表在历史时间段内的平均变化量,并基于所述数据表的平均变化量,确定所述数据表的数据稳定性值;从所述至少一个数据表中,选取稳定性值高于预设稳定性阈值,或,稳定性值排名在预设范围内的数据表作为所述第一数据表。3.根据权利要求2所述的方法,其特征在于,所述基于所述数据表的平均变化量,确定所述数据表的数据稳定性值,包括:基于所述数据表在所述历史时间段内的数据变化次数以及数据变化时长,确定所述数据表的数据稳定性值。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据表与所述第二数据表,获取至少一个满足主数据引用关系的相似字段对,包括:基于预设主键数目和所述第一数据表中包含的至少一个第一表头字段,生成所述第一表头字段集合;以及基于所述主键数目和所述第二数据表中包含的至少一个第二表头字段,生成所述第二表头字段集合;对所述第一表头字段集合与所述第二表头字段集合进行笛卡尔集运算,得到字段笛卡尔集合;基于所述字段笛卡尔集合,获取所述相似字段对。5.根据权利要求4所述的方法,其特征在于,所述基于所述字段笛卡尔集合,获取所述相似字段对,包括:提取所述字段笛卡尔集合中包含的每一元组;计算每一元组中的第一表头字段与第二表头字段之间的相似度;将表头字段之间相似度超过预设阈值的元组组成所述相似字段对。6.根据权利要求5所述的方法,其特征在于,在所述计算每一元组中的第一表头字段与第二表头字段之间的相似度之前,还包括:对所述每一元组中的第一表头字段进行去重处理后,得到所述每一元组中的第一表头字段;以及,对所述每一元组中的第二表头字段进行去重处理后,得到所述每一元组中的第二头字段。7.根据权利要求5所述的方法,其特征在于,所述计算每一元组中的第一表头字段与第二表头字段之间的相似度,包括:计算所述第一表头字段的取值集合与所述第二表头字段的取值集合的交集值,以及计
算所述第一表头字段的取值集合与所述第二表头字段的取值集合的并集值;基于所述交集值与所述并集值的比值,确定每一元组中的第一表头字段与第二表头字段之间的相似度。8.根据权利要求1

7任一项所述的方法,其特征在于,所述基于所述相似字段对,识别所述多个数据库中的主数据,包括:确定所述相似字段对中至少一个表头字段重复出现的次数;将...

【专利技术属性】
技术研发人员:许灿冲王磊郭晨瑞陈健陈旭
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1