【技术实现步骤摘要】
一种评估数据仓库的方法、装置、计算机设备及存储介质
[0001]本申请涉及计算机
,尤其涉及一种评估数据仓库的方法
、
装置
、
计算机设备及存储介质
。
技术介绍
[0002]随着科技的不断发展,越来越多的设备可以通过设计数据仓库,将多个异构数据源中的原始数据集成在数据仓库中,从而,在集成后,设备可以按照主题等对原始数据进行重组
、
分析等,以提供不同数据处理服务
。
[0003]在设计一个数据仓库时,通常先是按照数据单元的命名规范进行不同的命名,就可以建立各个不同的数据单元,不同的数据单元可以用于存储不同的数据;在建立各个数据单元之后,再是按照数据调用规范,建立每两个数据单元之间的调用规则,通过调用规则可以从一个数据单元中调用数据,以进行数据加工,并将数据加工结果存入另一个数据单元中
。
从而,通过不同数据单元之间的调用,设备可以基于原始数据,实现不同的数据处理功能,以提供不同的数据处理服务
。
[0004]然而,数据调用规范通常较为简单
、
零散,虽然便于开发人员灵活运用数据调用规范,设计出功能丰富多样的数据仓库,但是由于没有成体系的评估标准,因此设备也容易将调用关系混乱
、
数据单元冗余等低质量的数据仓库投入使用,使得设备在存储资源和计算资源上,出现大量不必要的资源占用
。
[0005]可见,相关技术中,除了传统的命名规范和数据调用规范以外,需要一种针对 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种评估数据仓库的方法,其特征在于,包括:获取待评估的数据仓库包含的各数据单元之间的数据逻辑关系,其中,每个数据逻辑关系表征:在相应的两个数据单元之间,父数据单元为子数据单元的数据来源;基于获得的各数据逻辑关系,获得所述各数据单元组成的满足预设单元关联条件的至少一条目标关系链;基于所述各数据逻辑关系,确定每个数据单元作为父数据单元的复用度,以及确定每两个数据单元分别在作为子数据单元时,各自对应的父数据单元之间的重合度;基于获得的各复用度
、
各重合度和所述至少一条目标关系链的链数量,对所述数据仓库进行质量评估,获得相应的质量评估结果
。2.
根据权利要求1所述的方法,其特征在于,所述获取待评估的数据仓库包含的各数据单元之间的数据逻辑关系,包括:遍历待评估的数据仓库包含的各数据单元,建立数据单元列表;基于所述数据仓库的数据调用规则,依次确定所述数据单元列表中的每个数据单元的数据来源,获得各个父数据单元,以及所述各个父数据单元各自对应的子数据单元;基于所述各个父数据单元与相应的子数据单元之间的对应关系,建立关系列表,获得所述各数据单元之间的数据逻辑关系
。3.
根据权利要求1所述的方法,其特征在于,所述数据仓库设置有序的多种数据仓库层级,每个数据单元关联设置有相应的数据仓库层级,每种数据仓库层级表征相应的数据单元的数据用途;则所述基于获得的各数据逻辑关系,获得所述各数据单元组成的满足预设单元关联条件的至少一条目标关系链,包括:基于获得的各数据逻辑关系,获得所述各数据单元组成的各备选关系链,其中,每个备选关系链中相邻两个数据单元之间存在相应的数据逻辑关系;从所述各备选关系链中,选取未形成环状链,且包含的数据单元的第一单元数量不大于预设数量阈值,且每两个相邻数据单元对应的数据仓库层级之间未跨级的备选关系链作为目标关系链,获得所述至少一条目标关系链
。4.
根据权利要求1所述的方法,其特征在于,所述基于所述各数据逻辑关系,确定每个数据单元作为父数据单元的复用度,包括:针对所述各数据单元,分别执行以下操作:基于所述各数据逻辑关系,统计一个数据单元作为父数据单元时,对应的子数据单元的第二单元数量;将统计的第二单元数量,作为所述一个数据单元的复用度
。5.
根据权利要求1所述的方法,其特征在于,所述确定每两个数据单元分别在作为子数据单元时,各自对应的父数据单元之间的重合度,包括:针对每两个数据单元,执行以下操作:基于所述各数据逻辑关系,分别获取一个数据单元仅作为子数据单元时的至少一条第一关系链,以及另一个数据单元仅作为子数据单元时的至少一条第二关系链;分别匹配每条所述第一关系链与每条所述第二关系链之间是否存在相同的数据单元,并统计相同的数据单元的第三单元数量;
将统计的第三单元数量,作为所述一个数据单元和所述另一个数据单元分别作为子数据单元时,各自对应的父数据单元之间的重合度
。6.
根据权利要求1~5任一项所述的方法,其特征在于,所述基于获得的各复用度
、
技术研发人员:聂晓楠,施雯洁,黄伟康,青超群,唐辉,刘帆,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。