【技术实现步骤摘要】
应用于多源异构数据存储系统的实体关联关系的识别方法
[0001]本申请的实施例涉及数据分析领域,尤其涉及应用于多源异构数据存储系统的实体关联关系的识别方法、装置、设备和计算机可读存储设备。
技术介绍
[0002]传统的技术中针对数据表的关联关系是通过数据库的主外键来建立业务表之间的关联关系,同时在一些规范化的业务系统建设过程中,也会采用一些标准的数据模型工具来定义业务表之间的关联关系,并形成数据库设计文档。
[0003]但上述手段往往是针对单个业务系统内部的、不具备跨系统的关联关系定义和维护;由于管理上的原因,也无法约束每个应用系统都有明确的对业务数据库的设计文档;更深层次的原因是不同业务系统中对业务上的同一份数据使用方式和内容不同,对业务上的同一份数据表、字段的命名规范、字段类型和字段内容也不相同。
[0004]业内当前一般采用主数据管理系统来进行数据维护,但该技术仅适用于对业务有深入了解,企业主数据规范相对完善的情况,且完成后还需要各业务系统进行改造适配。
技术实现思路
[0005]根据本 ...
【技术保护点】
【技术特征摘要】
1.一种应用于多源异构数据存储系统的实体关联关系的识别方法,其特征在于,包括:获取各数据表的实体关联模型;根据设置的权重层级,确定实体关联模型中表/字段的关联关系;对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储系统的关联关系的智能识别。2.根据权利要求1所述的方法,其特征在于,所述获取各数据表的实体关联模型包括:基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型。3.根据权利要求2所述的方法,其特征在于,所述基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型包括:若数据来源类型为关系型数据库,则通过数据库的元数据接口获取ER模型关系,形成实体关联模型;若数据来源类型为数据库设计文档,则对所述设计文档进行识别,提取所述文档中表的关联关系,形成实体关联模型;若数据来源类型为业务SQL审计,则对所述的SQL语句进行分析,提取where子句中的字段关联关系,形成实体关联模型;若数据来源类型为人工录入,则直接获取表和字段间的关联关系,形成实体关联模型;若数据来源类型为表元数据,则通过注释、字段名、字段注释和/或字段类型,提取所述表元数据中表/字段的关联关系,形成实体关联模型;若数据来源类型为数据内容,则对所述数据内容进行文本分析,提取字段关联关系,形成实体关联模型。4.根据权利要求3所述的方法,其特征在于,所述对所述关联关系进行修正包括:通过如下公式对所述关联关系进行修正:其中,α
i
表示机器学习规则的权重;表示规则是否满足,规则满足时为1,不满足为0;C表示人工录入规则和ER模型分析的权重,值为100%;R
i
表示每一种规则、算法的计算结果;I
person
定义的人工规则,人工规则或ER模型分析满足时为1,不满足时为0。5.一种应用于多源异构数据存储系统的实体关联关系的识别装置,其特征在于,包括:获取模块,用于分别获取各数据表的实体关联模型;确定模块,用于根据设置的权重层级,确定实体关联模型中...
【专利技术属性】
技术研发人员:姚宏宇,朱朝强,王刚,申忠玲,于艳波,
申请(专利权)人:北京友友天宇系统技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。