异构存储扩展系统及方法技术方案

技术编号:19692239 阅读:23 留言:0更新日期:2018-12-08 11:17
本发明专利技术公开了一种异构存储扩展系统及方法,所述系统包括:获取模块,配置为获取待存储数据;数据处理模块,配置为对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理;异构存储模块,配置为将所述待存储数据存储至相匹配的数据库中;数据库模块,配置为存储所述待存储数据,其中所述待存储数据与所述数据库类型相匹配;扩展模块,配置为为所述获取模块提供扩展数据接口,以及为所述异构存储模块提供接入扩展。本发明专利技术实施例的技术方案具有高扩展性,避免因为业务扩展导致的数据接入受限的问题。

【技术实现步骤摘要】
异构存储扩展系统及方法
本专利技术涉及大数据领域,特别涉及一种异构存储扩展系统及方法。
技术介绍
当前主流大数据产品中,分布式文件系统(HadoopDistributedFileSystem,HDFS)分布式文件系统的扩展为大数据平台提供冷热数据分离的存储机制,实现冷热数据分区、存储介质选择、数据调取规范等功能。在使用分布式系统存储数据时,可对HDFS原生的存储系统进行优化和迭代,形成自有服务或产品。随着数据采集、数据清洗、建模分析、可视化应用等多个数据应用过程的接入,大量的适配工作需要进行。在对分布式存储系统开发过程中,由于时间周期、业务需求等方面的局限性,开发者往往着重于HDFS的内容稳定性、可靠性,而仅仅在可视化层面体现可扩展性。但是随着互联网爆发式的发展,数据来源多、种类多,尤其是在数据接入、存储、访问等方面,对分布式存储系统的扩展性能的要求更高。
技术实现思路
有鉴于此,本专利技术实施例为解决
技术介绍
中提出的至少一个技术问题,提供至少一种有益的选择。为了实现上述目的,本专利技术实施例提供了一种异构存储扩展系统,包括:获取模块,配置为获取待存储数据;数据处理模块,配置为对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理;异构存储模块,配置为将所述待存储数据存储至相匹配的数据库中;数据库模块,配置为存储所述待存储数据,其中所述待存储数据与所述数据库类型相匹配;扩展模块,配置为为所述获取模块提供扩展数据接口,以及为所述异构存储模块提供接入扩展。优选的,所述获取模块包括:网络爬虫模块,配置为采用网络爬虫技术获取互联网上的待存储数据;离线数据获取模块,配置为导入离线状态下的待存储数据;外部数据获取模块,配置为为外部的待存储数据提供接口引擎。优选的,所述网络爬虫模块包括:资源管理模块,配置为对所抓取的所述待存储数据对应的网站资源进行管理反监控管理模块,配置为采用反爬机制对所述网站资源进行反监控管理;抓取管理模块,配置为对抓取线程进行调度,并解析所抓取的内容以获得所述待存储数据;监控管理模块,配置为监控所述网站资源的可访性。优选的,数据处理模块包括:数据校验模块,配置为校验所述待存储数据;数据清洗模块,配置为对所述待存储数据进行数据脱敏、数据查重和/或数据除脏;数据匹配模块,配置为确定所述待存储数据与元数据是否匹配;数据转换模块,配置为对所述待存储数据进行合并、拆分、转码、去重、标识,以使所述待存储数据标准化。优选的,异构存储模块包括:数据接入模块,配置为将经过处理的待存储数据进行异构存储适配;数据访问模块,配置为控制对数据库中所述待存储数据的数据读写。优选的,其中,所述数据库包括以下至少一种:关系型数据库、非关系型数据库和分布式文件系统。本专利技术实施例提供一种异构存储扩展方法,所述方法包括:获取待存储数据;对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理;将所述待存储数据存储至相匹配的数据库中;其中,可对用于获取所述待存储数据的数据接口进行扩展,当存储所述待存储数据时,可对用于存储所述待存储数据的数据接口进行扩展;其中,所述数据与所述数据库类型相匹配。优选的,获取待存储数据包括:采用网络爬虫技术获取互联网上的待存储数据;导入离线状态下的待存储数据;为外部的待存储数据提供接口引擎。优选的,采用网络爬虫技术获取互联网上的待存储数据包括:对所抓取的所述待存储数据对应的网站资源进行管理采用反爬机制对所述网站资源进行反监控管理;对抓取线程进行调度,并解析所抓取的内容以获得所述待存储数据;监控所述网站资源的可访性。优选的,对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理包括:校验所述待存储数据;对所述待存储数据进行数据脱敏、数据查重和/或数据除脏;确定所述待存储数据与元数据是否匹配;对所述待存储数据进行合并、拆分、转码、去重、标识,以使所述待存储数据标准化。优选的,将所述待存储数据存储至相匹配的数据库中包括:将经过处理的待存储数据进行异构存储适配;控制对数据库中所述待存储数据的数据读写。本专利技术实施例具有以下有益效果:本专利技术实施例的技术方案包括获取模块、数据处理模块、异构存储模块、数据库模块和扩展模块,其中,数据处理模块可对待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理,然后异构存储模块将待存储数据存储至相匹配的数据库中,而且可通过扩展模块为获取模块提供扩展数据接口,以及为所述异构存储模块提供接入扩展;本专利技术技术方案具有高扩展性,避免因为业务扩展导致的数据接入受限的问题。附图说明图1为本专利技术的实施例一的异构存储扩展系统的示意图;图2为本专利技术的实施例一的异构存储扩展系统的工作流程图;图3为本专利技术的实施例一的异构存储扩展系统的又一工作流程图;图4为本专利技术的实施例二的异构存储扩展方法的流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。实施例一图1为本专利技术的异构存储扩展系统的实施例一的示意图,如图1所示,本实施例的异构存储扩展系统,具体可以包括:获取模块10,配置为获取待存储数据;数据处理模块20,配置为对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理;异构存储模块30,配置为将所述待存储数据存储至相匹配的数据库中;数据库模块40,配置为存储所述待存储数据,其中所述待存储数据与所述数据库类型相匹配;扩展模块50,配置为为所述获取模块提供扩展数据接口,以及为所述异构存储模块提供接入扩展。其中,所述获取模块10包括:网络爬虫模块101,配置为采用网络爬虫技术获取互联网上的待存储数据;离线数据获取模块102,配置为导入离线状态下的待存储数据;外部数据获取模块103,配置为为外部的待存储数据提供接口引擎。进一步地,所述网络爬虫模块101包括:资源管理模块,配置为对所抓取的所述待存储数据对应的网站资源进行管理反监控管理模块,配置为采用反爬机制对所述网站资源进行反监控管理;抓取管理模块,配置为对抓取线程进行调度,并解析所抓取的内容以获得所述待存储数据;监控管理模块,配置为监控所述网站资源的可访性。本专利技术实施例的异构存储系统具备多源数据获取功能,例如,支持互联网爬虫技术获取网站资源、离线数据文件导入以及外部数据接口引擎,这样可以满足多业务领域、多业务场景的数据接入需要,同时具备高扩展性,避免因为业务扩展导致的数据接入受限的问题。进一步地,数据处理模块20包括:数据校验模块201,配置为校验所述待存储数据;数据清洗模块202,配置为对所述待存储数据进行数据脱敏、数据查重和/或数据除脏;数据匹配模块203,配置为确定所述待存储数据与元数据是否匹配;数据转换模块204,配置为对所述待存储数据进行合并、拆分、转码、去重、标识,以使所述待存储数据标准化。本专利技术实施例在数据处理过程中,根据数据特性、业务特性,保障数据的准确性、完整性、一致性等质量维度,通过数据清洗、匹配、转换等操作,形成高质量数据,供分析模块、应用模块调用,加快数据价值的开发速度,有效保障数据价值、挖掘数据价值。进一步地,异构存储模块30包括:数据接入模块301,配置为将经过处理的待存储数据进行异构存储适配;数据本文档来自技高网...

【技术保护点】
1.一种异构存储扩展系统,其特征在于,包括:获取模块,配置为获取待存储数据;数据处理模块,配置为对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理;异构存储模块,配置为将所述待存储数据存储至相匹配的数据库中;数据库模块,配置为存储所述待存储数据,其中所述待存储数据与所述数据库类型相匹配;扩展模块,配置为为所述获取模块提供扩展数据接口,以及为所述异构存储模块提供接入扩展。

【技术特征摘要】
1.一种异构存储扩展系统,其特征在于,包括:获取模块,配置为获取待存储数据;数据处理模块,配置为对所述待存储数据进行审核、校验、数据清洗、数据匹配和/或数据转换处理;异构存储模块,配置为将所述待存储数据存储至相匹配的数据库中;数据库模块,配置为存储所述待存储数据,其中所述待存储数据与所述数据库类型相匹配;扩展模块,配置为为所述获取模块提供扩展数据接口,以及为所述异构存储模块提供接入扩展。2.根据权利要求1所述的系统,其特征在于,所述获取模块包括:网络爬虫模块,配置为采用网络爬虫技术获取互联网上的待存储数据;离线数据获取模块,配置为导入离线状态下的待存储数据;外部数据获取模块,配置为为外部的待存储数据提供接口引擎。3.根据权利要求2所述的系统,其特征在于,所述网络爬虫模块包括:资源管理模块,配置为对所抓取的所述待存储数据对应的网站资源进行管理反监控管理模块,配置为采用反爬机制对所述网站资源进行反监控管理;抓取管理模块,配置为对抓取线程进行调度,并解析所抓取的内容以获得所述待存储数据;监控管理模块,配置为监控所述网站资源的可访性。4.根据权利要求1所述的方法,其特征在于,数据处理模块包括:数据校验模块,配置为校验所述待存储数据;数据清洗模块,配置为对所述待存储数据进行数据脱敏、数据查重和/或数据除脏;数据匹配模块,配置为确定所述待存储数据与元数据是否匹配;数据转换模块,配置为对所述待存储数据进行合并、拆分、转码、去重、标识,以使所述待存储数据标准化。5.根据权利要求1所述的方法,其特征在于,异构存储模块包括:数据接入模块,配置为将经过处理的待存储数据进行异构存储适配;数据访问模块,配...

【专利技术属性】
技术研发人员:吴海关
申请(专利权)人:北京至信普林科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1