System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于虚拟表的数据虚拟化方法技术_技高网

一种基于虚拟表的数据虚拟化方法技术

技术编号:41175303 阅读:2 留言:0更新日期:2024-05-07 22:11
本发明专利技术涉及一种基于虚拟表的数据虚拟化方法,首先进行数据源注册,判断该类型数据源是否已注册为元模型,然后从元模型库中加载该类型的元模型,包括语法关键字、IDL文件结构、可使用的解析方法,再使用元模型中规定的语法定义虚拟表结构、IDL文件内容等,形成虚拟表表结构,并将虚拟表定义存储到元数据库中,数据读取,解析引擎从元数据库中获取虚拟表结构进行动态解析,生成表记录,最后基于虚拟表生成的表记录数据提供给上层服务及应用使用。本发明专利技术降低了大量数据抽取的实施工作量,减少了数据仓库数据存储占用空间,同时也屏蔽了底层多源异构数据的底层复杂性。

【技术实现步骤摘要】

本专利技术属于大数据,涉及数据虚拟化技术,涉具体及一种基于虚拟表的数据虚拟化方法,针对数据仓库贴源层数据来源的多源异构特性,为了减少数据存储的冗余,避免不必要的数据抽取。


技术介绍

1、随着信息技术在各行各业的飞速发展,由此产生的数据成几何倍数剧增,政府和企业越来越意识到数据的价值,为了充分收集并利用这些数据,各单位搭建了数据仓库和数据中台等专门的数据汇集、处理、管理、分析和应用平台。然而传统的数据仓库是通过各种etl方式将多源异构的数据统一抽取到数据仓库贴源层,然后再为后续的数据仓库的其他数据层提供支撑。这种方式由于要处理不同来源的数据的抽取工作,因此,需要构建数据抽取流程,实现数据的全量和增量抽取,数据抽取任务配置和调度复杂,需花大量的人力物力处理,且随着源头的数据表的变更,经常需要重新配置整个抽取流程;同时,因为需要将数据从数据源全量抽取到数据仓库贴源层,所以需要大量的存储空间进行存储。另外,传统的数据仓库主要实现结构化数据的建模和数据抽取,对于非结构化数据,尤其是现在的大数据体系支撑有限。


技术实现思路

1、为了解决上述问题,本专利技术提出了一种基于虚拟表的数据虚拟化方法,通过统一标准、制定虚拟表的定义规范,将不同来源的数据源的数据按虚拟表的规范进行注册和描述,形成虚拟表,并提供虚拟表数据的动态访问。

2、本专利技术的技术方案如下:

3、一种基于虚拟表的数据虚拟化方法,其特征在于包括以下步骤:

4、步骤1:对准备新接入的数据进行数据源注册。判断该类数据源是否为已在元模型中注册过的数据源,如果未曾注册,则需要在元模型管理系统里注册元模型,定义此类元模型的语法、idl文件结构、数据的连接和解析方法等。

5、步骤2:从元模型库中取出并加载该类型元模型,包括语法关键字、idl文件结构模板等。

6、步骤3:使用元模型中定义的语法定义虚拟表结构、并用idl文件进行结构描述与定义,将虚拟表定义的元信息存入元数据库中。

7、步骤4:在数据仓库贴源层进行数据读取时,解析引擎从元数据库中获取虚拟表的结果,进行数据源连接,并进行数据的动态解析,生成表记录。

8、步骤5:基于虚拟表生成的表记录数据,为上层服务及应用提供支撑。

9、本专利技术通过定义虚拟表,降低了大量数据抽取的实施工作量,减少了数据仓库数据存储占用空间,同时也屏蔽了底层多源异构数据的底层复杂性,规范和统一了数据表的展现形式,既有利于上层服务灵活调用,又能对源端数据的变化进行实时感知。

10、通过这种方式,不需要再将数据源的数据统一抽取到数据仓库,减少了数据仓库的存储压力;同时,由于不需要抽取数据,避免了花大量人力配置抽取流程,源表的结构改变仅根据需要适当调整虚拟表中的注册信息即可;更重要的是由于采取了统一标准的虚拟表,屏蔽了数据在不同地域、不同机房、不同存储类型的多源异构的问题,使得基于虚拟表的数据应用更简单、透明。

本文档来自技高网...

【技术保护点】

1.一种基于虚拟表的数据虚拟化方法,其特征在于包括以下步骤:

【技术特征摘要】

1.一种基于虚拟表的数据虚拟化...

【专利技术属性】
技术研发人员:郑志国
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1