数据治理方法、装置以及存储介质制造方法及图纸

技术编号:36709710 阅读:27 留言:0更新日期:2023-03-01 09:35
本申请公开了一种数据治理方法、装置以及存储介质。其中,一种数据治理方法,包括:根据多表之间的依赖关系确定与主题表对应的数据源表;根据主题表以及相应的数据源表之间的依赖关系表对主题表进行聚类;以及根据聚类结果对主题表进行替换。对主题表进行替换。对主题表进行替换。

【技术实现步骤摘要】
数据治理方法、装置以及存储介质


[0001]本申请涉及信息
,特别是涉及一种数据治理方法、装置以及存储介质。

技术介绍

[0002]随着业务爆发式增长,数字化运营日趋重要,业务对数据分析的需求呈井喷式增长。业务分析需求往往以职能部门KPI为导向的局部性分析需求。这样的数据分析需求存在一些特点。第一、不同职能部门对业务指标理解各异,不同职能部门甚至是同一职能部门在不同业务场景下,相同指标都存在多种不同的逻辑描述,数据一致性难以保障。第二、各职能部门提出的大部分数据分析需求大同小异,且都单独提出单独开发,存在大量冗余数据,数据价值密度低。第三、各职能部门目标各异,以KPI为导向的数据分析需求缺乏全局战略目标,难以反映业务整体情况。
[0003]在这样的业务背景下,两三年时间内可能积累数千张业务报表,并催生大量中间主题表建设。大量相似度高业务数据需求,都需要单独占用科技资源。致使数据冗余情况越发严重,进而导致科技资源无法高效利用。同时存在同一指标多种口径的情况,缺少企业级规范指标,数据可靠性难以保障。特别是业务发展到一定阶段后,整合现有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据治理方法,其特征在于,包括:根据多表之间的依赖关系确定与主题表对应的数据源表;根据所述主题表以及相应的数据源表之间的依赖关系表对所述主题表进行聚类;以及根据聚类结果对所述主题表进行替换。2.根据权利要求1所述的方法,其特征在于,根据多表之间的依赖关系确定与主题表对应的数据源表的操作,包括:通过确定与所述主题表对应的数据源表,确定所述主题表与相应的数据源表之间的依赖关系表;以及根据所述依赖关系表之间的依赖关系,确定相应的数据源表。3.根据权利要求1所述的方法,其特征在于,根据所述主题表以及相应的数据源表之间的依赖关系表对所述主题表进行聚类的操作,包括:将所述主题表以及相应的数据源表之间的依赖关系表进行聚合;计算所述主题表之间的相似度;以及通过密度聚类算法根据所述主题表之间的相似度对所述主题表进行聚类。4.根据权利要求1所述的方法,其特征在于,根据聚类结果对所述主题表进行替换的操作,包括:分析同一类别主题表的字段,确定相似字段与差异字段;以及根据所述相似字段与差异字段生成与所述主题表对应的新建主题表。5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。6.一种数据治理装置,其特征在于,包括:第一确定模块,用于根据多表之间的依赖关系确定与主题表对应的数据源表;主题表聚类模块,用于根据所述主题表以及相应的数据源表之间的依赖关系表对所述主题表进行...

【专利技术属性】
技术研发人员:罗怀芳陈凌云李宁张一鹏张雷
申请(专利权)人:德邦证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1