【技术实现步骤摘要】
一种数据湖元数据模型的建模方法
[0001]本专利技术涉及数据湖元数据管理领域,特别涉及数据湖元数据模型建模。
技术介绍
[0002]在大数据时代,数字化的发展导致了数据的爆炸式增长,智能手机、社交媒体、物联网以及其他数据创造者比以往更快地创建了大量结构化(如企业关系型数据库中的表等)、半结构化(如CSV、日志、XML、JSON等)、非结构化数据(如电子邮件、文档、PDF等)和二进制数据(如图形、音频、视频等)。这些海量的异构数据为企业的数据管理与分析带来了巨大的难题,传统的数据仓库已不适用于当下海量异构复杂数据环境下的数据管理与分析。为解决这个难题,一种新的大数据分析解决方案——数据湖应运而生。数据湖是一种灵活、可扩展的数据存储和管理系统,以原始格式接收和存储来自异构数据源的原始数据,并以动态的方式提供查询处理和数据分析。
[0003]然而随着数据湖技术的不断发展,人们发现未经治理的数据湖很可能会逐步变成不可用的“数据沼泽”。当将多源异构的原始数据引入数据湖时,原始数据的语义或数据质量是未知的,对于用户而言,在数据 ...
【技术保护点】
【技术特征摘要】
1.一种数据湖元数据模型建模方法;,其特征在于:在数据湖元数据分类体系基础之上,采用恒星实体、行星实体、星链实体、彗星实体四类元数据模型组件,实现对数据湖多源异构数据的元数据管理,其特征在于将数据实体、数据实体本体的元数据属性(即数据实体内元数据)、数据实体间的联系(即数据实体间元数据)以及全局元数据分开存储,以不同数据实体类型的数据实体为中心进行集成建模,以此形成一个通用可扩展的数据湖元数据模型;所述的数据实体为数据湖中不同粒度级别的数据;所述数据实体类型指代数据实体的文件类型;依据元数据的作用范围将数据湖中的元数据进行分类,包括:数据实体内元数据,指与数据实体本身特征相关联的元数据,包含属性元数据、结构元数据、摘要元数据、数据更新版本元数据、数据演化版本元数据、语义元数据、区域元数据这七种类型,其中区域元数据是用来标识数据实体所位于数据湖的区域位置元数据;数据实体间元数据,指的是描述数据实体之间关联关系的元数据,包含实体分组、相似链接、血缘关系这三种类型;其中实体分组是记录带有同一特征标签的数据实体之间集合关系的元数据,相似链接是记录两个数据实体之间相似程度强弱的元数据,血缘关系是记录数据沿袭的元数据;全局元数据,指的是作用于整个元数据模型或整个数据湖的元数据,包含语义资源、知识共享元数据和用户访问元数据这三种类型;采用四类元数据模型组件,包括:3.1恒星实体,可用于表示不同数据实体类型的数据实体或数据实体集;一种数据实体类型对应一个恒星实体,使用恒星表进行数据存储;恒星表内的属性有:数据实体ID,即恒星表的主键,用于记录数据实体在数据湖中的唯一标识信息;数据来源,即该数据实体的来源,可以是数据来源的描述,也可以是源系统访问链接;入湖时间,记录数据实体加载进入数据湖的时间;数据实体名称,即数据实体在数据湖中的名称;存储位置,记录数据实体在数据湖中的存储路径;3.2行星实体,用于表示数据实体的数据实体内元数据,使用行星表进行数据存储;行星表与恒星表通过外键相链接,一张恒星表拥有七张行星表以分别记录七种不同类型的数据实体内元数据,分别是属性行星表、结构行星表、摘要行星表、数据更新版本行星表、数据演化版本行星表、语义行星表、区域行星表;行星表内的重要属性有:数据实体ID,即恒星表的主键;行星ID;数据来源,记录数据实体内元数据的来源;加载时间,记录数据实体内元数据加载进入行星表的时间;其中数据实体ID以及行星ID两者形成行星表主键;属性行星表的可选属性有:更新时间、源数据实体ID、源数据实体名称、数据大小、数据拥有者、数据记录数、数据实体类型;结构行星表的可选属性有:更新时间、模式名称、属性名、属性类型、非空判断、字符集、主外键;摘要行星表的可选属性有:更新时间、模式名称、属性名、属性描述、数据分布、最大值、最小值、平均值;数据更新版本行星表的可选属性有:数据版本、更新操作时间、操作名称、执行用户ID、父数据版本;数据演化版本行星表的可选属性有:数据版本、演化操作时间、操作名称、执行用户ID、父数据版本;语义行星表的可选属性有:更新时间、语义标注内容、语义资源ID、标注时间、执行用户ID;区域行星表的属性有:更新时间、数据湖区域;3.3星链实体,用于表示数据实体的数据实体间元数据,使用星链表以及星链子表进行
数据存储;星链表会与恒星表相链接以记录数据实体间的关系,数据实体内元数据详细内容会存储于该星链表的对应星链子表中,一张星链表拥有三张星链子表以分别记录三种不同类型的数据实体间元数据,分别是实体分组星链子表、相似链接星链子表、血缘关系星链子表;星链表内的重要属性有:星链ID,即星链表的主键;数据实体ID,即与该星链表链接的恒星表的主键,是表的外键,一个星链表可...
【专利技术属性】
技术研发人员:杨良怀,陈峥,梁荣华,孙国道,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。