System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多源异构数据库适配方法组成比例_技高网

一种多源异构数据库适配方法组成比例

技术编号:42645109 阅读:29 留言:0更新日期:2024-09-06 01:40
本申请公开了一种多源异构数据库适配方法,包括:获取各类多源异构数据,所述多源异构数据包括结构化数据、半结构化数据及非结构化数据;将所述获取的多源异构数据进行统一分类与预处理;对预处理完后的各类数据按照预设数据规范进行集中化存储;采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合。多源异构数据适配引擎提供灵活的适配器模式,隔离了不同数据存储底层通信及数据传输转换细节,将异构数据之间的接入差异、语法差异、操作差异进行统一适配转换,为上层数据治理及数据应用提供数据库层的统一支撑。

【技术实现步骤摘要】

本申请涉及数据库,具体涉及一种多源异构数据库适配方法


技术介绍

1、随着以大数据为代表的信息技术快速发展,千行百业数字化转型深入,数据迎来大爆发。各种不同格式、不同结构的数据、数据来源也变得更加多样化,包括不同系统、平台、设备或应用,例如云上云下、软硬件设备/平台等,这也就导致了数据的存储模式、逻辑结构、语言语义等全然不同,也就造成了所谓的多源异构。

2、而作为当下企业深化数字化、构建未来核心竞争力的新“燃料”,看数、用数、挖掘数据价值,已经成为每家企业高度关注和重点投入的领域之一。可是,面对如此海量、庞大、复杂、混乱的数据,如何高效、统一、低成本的管理和挖掘数据价值,就成为让企业头疼的事情。在此背景下,多源异构数据的融合大势所趋。

3、因此,如何实现多源异构数据的融合有效性是本领域亟待解决的技术问题。


技术实现思路

1、本申请为了解决上述技术问题,提出了如下技术方案:

2、第一方面,本申请实施例提供了一种多源异构数据库适配方法,包括:

3、获取各类多源异构数据,所述多源异构数据包括结构化数据、半结构化数据及非结构化数据;

4、将所述获取的多源异构数据进行统一分类与预处理;

5、对预处理完后的各类数据按照预设数据规范进行集中化存储;

6、采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合。

7、在一种可能的实现方式中,所述半结构化数据包括xml及json;所述非结构化数据包括所有格式的办公文档、文本、图片、html、各类报表、图像和音频视频信息。

8、在一种可能的实现方式中,将所述获取的多源异构数据进行统一分类与预处理,包括:

9、将获取的多源异构数据根据使用需求设定预设标准格式;

10、按照预设标准格式对获取到的多源异构数据进行清洗,将结构多样、内容复杂的数据清洗为标准格式的数据;

11、在清洗过程中对冗余信息进行过滤处理。

12、在一种可能的实现方式中,所述按照预设标准格式对获取到的多源异构数据进行清洗,包括:缺失值清洗、格式内容清洗和逻辑错误清洗。

13、在一种可能的实现方式中,所述缺失值清洗,包括:

14、确定缺失值的范围,计算数据内每个字段的缺失值比例,根据缺失比例和字段的重要性,分别制定策略;

15、删除数据中不需要的字段,根据业务知识对缺失的内容进行填充;

16、当数据缺失量过多、错误率过高时,重新获取数据。

17、在一种可能的实现方式中,所述采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合,包括:

18、通过适配器模式,对存储的不同数据通信及数据传输转换细节进行隔离;

19、将异构数据之间的接入差异、语法差异和操作差异进行统一适配转换。

20、第二方面,本申请实施例提供了一种多源异构数据库适配系统,包括:

21、获取模块,用于获取各类多源异构数据,所述多源异构数据包括结构化数据、半结构化数据及非结构化数据;

22、预处理模块,用于将所述获取的多源异构数据进行统一分类与预处理;

23、存储模块,用于对预处理完后的各类数据按照预设数据规范进行集中化存储;

24、融合模块,用于通过多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合。

25、与现有技术相比,本申请的有益效果为:

26、本申请支持结构化、半结构化及非结构化数据多种类型的数据集中化存储接入,并对不同来源、不同格式的数据集中管理。通过多源异构数据适配引擎提供灵活的适配器模式,隔离了不同数据存储底层通信及数据传输转换细节,将异构数据之间的接入差异、语法差异、操作差异进行统一适配转换,为上层数据治理及数据应用提供数据库层的统一支撑。适配器同时具备横向扩展的能力,可根据数据源的类型进行灵活扩展。

本文档来自技高网...

【技术保护点】

1.一种多源异构数据库适配方法,其特征在于,包括:

2.根据权利要求1所述的一种多源异构数据库适配方法,其特征在于,所述半结构化数据包括XML及JSON;

3.根据权利要求1所述的一种多源异构数据适配方法,其特征在于,将所述获取的多源异构数据进行统一分类与预处理,包括:

4.根据权利要求3所述的一种多源异构数据适配方法,其特征在于,所述按照预设标准格式对获取到的多源异构数据进行清洗,包括:缺失值清洗、格式内容清洗和逻辑错误清洗。

5.根据权利要求4所述的一种多源异构数据适配方法,其特征在于,所述缺失值清洗,包括:

6.根据权利要求1所述的一种多源异构数据适配方法,其特征在于,所述采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合,包括:

7.一种多源异构数据库适配系统,其特征在于,包括:

【技术特征摘要】

1.一种多源异构数据库适配方法,其特征在于,包括:

2.根据权利要求1所述的一种多源异构数据库适配方法,其特征在于,所述半结构化数据包括xml及json;

3.根据权利要求1所述的一种多源异构数据适配方法,其特征在于,将所述获取的多源异构数据进行统一分类与预处理,包括:

4.根据权利要求3所述的一种多源异构数据适配方法,其特征在于,所述按照预设标准格式对获取到...

【专利技术属性】
技术研发人员:李亮李启凯李春霞杨斌斌
申请(专利权)人:山东浪潮智慧建筑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1