System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据库,具体涉及一种多源异构数据库适配方法。
技术介绍
1、随着以大数据为代表的信息技术快速发展,千行百业数字化转型深入,数据迎来大爆发。各种不同格式、不同结构的数据、数据来源也变得更加多样化,包括不同系统、平台、设备或应用,例如云上云下、软硬件设备/平台等,这也就导致了数据的存储模式、逻辑结构、语言语义等全然不同,也就造成了所谓的多源异构。
2、而作为当下企业深化数字化、构建未来核心竞争力的新“燃料”,看数、用数、挖掘数据价值,已经成为每家企业高度关注和重点投入的领域之一。可是,面对如此海量、庞大、复杂、混乱的数据,如何高效、统一、低成本的管理和挖掘数据价值,就成为让企业头疼的事情。在此背景下,多源异构数据的融合大势所趋。
3、因此,如何实现多源异构数据的融合有效性是本领域亟待解决的技术问题。
技术实现思路
1、本申请为了解决上述技术问题,提出了如下技术方案:
2、第一方面,本申请实施例提供了一种多源异构数据库适配方法,包括:
3、获取各类多源异构数据,所述多源异构数据包括结构化数据、半结构化数据及非结构化数据;
4、将所述获取的多源异构数据进行统一分类与预处理;
5、对预处理完后的各类数据按照预设数据规范进行集中化存储;
6、采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合。
7、在一种可能的实现方式中,所述半结构化数据包括xml及json;所述
8、在一种可能的实现方式中,将所述获取的多源异构数据进行统一分类与预处理,包括:
9、将获取的多源异构数据根据使用需求设定预设标准格式;
10、按照预设标准格式对获取到的多源异构数据进行清洗,将结构多样、内容复杂的数据清洗为标准格式的数据;
11、在清洗过程中对冗余信息进行过滤处理。
12、在一种可能的实现方式中,所述按照预设标准格式对获取到的多源异构数据进行清洗,包括:缺失值清洗、格式内容清洗和逻辑错误清洗。
13、在一种可能的实现方式中,所述缺失值清洗,包括:
14、确定缺失值的范围,计算数据内每个字段的缺失值比例,根据缺失比例和字段的重要性,分别制定策略;
15、删除数据中不需要的字段,根据业务知识对缺失的内容进行填充;
16、当数据缺失量过多、错误率过高时,重新获取数据。
17、在一种可能的实现方式中,所述采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合,包括:
18、通过适配器模式,对存储的不同数据通信及数据传输转换细节进行隔离;
19、将异构数据之间的接入差异、语法差异和操作差异进行统一适配转换。
20、第二方面,本申请实施例提供了一种多源异构数据库适配系统,包括:
21、获取模块,用于获取各类多源异构数据,所述多源异构数据包括结构化数据、半结构化数据及非结构化数据;
22、预处理模块,用于将所述获取的多源异构数据进行统一分类与预处理;
23、存储模块,用于对预处理完后的各类数据按照预设数据规范进行集中化存储;
24、融合模块,用于通过多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合。
25、与现有技术相比,本申请的有益效果为:
26、本申请支持结构化、半结构化及非结构化数据多种类型的数据集中化存储接入,并对不同来源、不同格式的数据集中管理。通过多源异构数据适配引擎提供灵活的适配器模式,隔离了不同数据存储底层通信及数据传输转换细节,将异构数据之间的接入差异、语法差异、操作差异进行统一适配转换,为上层数据治理及数据应用提供数据库层的统一支撑。适配器同时具备横向扩展的能力,可根据数据源的类型进行灵活扩展。
本文档来自技高网...【技术保护点】
1.一种多源异构数据库适配方法,其特征在于,包括:
2.根据权利要求1所述的一种多源异构数据库适配方法,其特征在于,所述半结构化数据包括XML及JSON;
3.根据权利要求1所述的一种多源异构数据适配方法,其特征在于,将所述获取的多源异构数据进行统一分类与预处理,包括:
4.根据权利要求3所述的一种多源异构数据适配方法,其特征在于,所述按照预设标准格式对获取到的多源异构数据进行清洗,包括:缺失值清洗、格式内容清洗和逻辑错误清洗。
5.根据权利要求4所述的一种多源异构数据适配方法,其特征在于,所述缺失值清洗,包括:
6.根据权利要求1所述的一种多源异构数据适配方法,其特征在于,所述采用多源异构数据适配引擎对所述存储的数据进行适配转换,实现多源异构数据的融合,包括:
7.一种多源异构数据库适配系统,其特征在于,包括:
【技术特征摘要】
1.一种多源异构数据库适配方法,其特征在于,包括:
2.根据权利要求1所述的一种多源异构数据库适配方法,其特征在于,所述半结构化数据包括xml及json;
3.根据权利要求1所述的一种多源异构数据适配方法,其特征在于,将所述获取的多源异构数据进行统一分类与预处理,包括:
4.根据权利要求3所述的一种多源异构数据适配方法,其特征在于,所述按照预设标准格式对获取到...
【专利技术属性】
技术研发人员:李亮,李启凯,李春霞,杨斌斌,
申请(专利权)人:山东浪潮智慧建筑科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。