一种适应多种数据库数据格式的数据导入导出方法及装置制造方法及图纸

技术编号:11124319 阅读:72 留言:0更新日期:2015-03-11 13:59
传统的ETL方式是指数据抽取(Extract)、转换(Transform)、装载(Load)的过程。用户需要从数据源抽取出所需的数据,再手动进行经过数据清洗及转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。本发明专利技术旨在提供一种在新型的数据抽取加载方式,该方式将数据抽取,数据清洗,数据转换组合在一起,使数据在抽取时就能同时进行清洗和转换,同时它又支持多种市面上常见的数据格式,从而不但使用户的操作更为简便,也提高了数据抽取及转换的速度及效率。

【技术实现步骤摘要】
一种适应多种数据库数据格式的数据导入导出方法及装置
本专利技术属于计算机技术应用领域,特别是涉及到一种适应多种数据库数据格式的数据导入导出方法。
技术介绍
随着社会和计算机技术的不断发展,越来越多的数据被记录于各种系统中,以便于企业进行经营分析,并作为企业管理,决策的重要基础。ETL技术则是目前实现数据迁移的主要技术。它完成了在企业内部的ERP、CRM, SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝地共享和交换数据的需要。传统的E T L程序主要由三步组成:Extract-Transform_Load,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。其中: (I)数据抽取:从源数据源系统抽取目的数据源系统需要的数据; (2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工; (3)数据加载:将转换后的数据装载到目的数据源。 但是随着被记录的数据量的不断增大,使得数据在各个系统间进行迁移的时间成本越来越高;而且,在实施数据迁移的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各系统中的流动与共享。因此,如何对数据进行有效的数据迁移已成为增强企业商业竞争力的必然选择。
技术实现思路
本专利技术主要解决的是如何有效地完成数据抽取转换以便于后续加载的问题,尤其是在数据很大的情况下,即能支持多种文件格式的导出,又能提高数据迁移的速度及效率。 为了达到上述目的,本专利技术采取的技术方案为:一种适应多种数据库数据格式的数据导入导出方法,其特征在于,包括如下步骤: (I)空值处理:捕获字段空值进行非空处理; (2)数据替换:实现无效数据、缺失数据的替换; (3)规范化数据格式:实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式; (4)拆分数据:依据业务需求对字段可进行分解; (5)分隔符设置:设置各种分隔符。 优选的,所述步骤(I)中非空处理包括进行加载或替换为其他含义数据。 优选的,所述步骤(3)中格式多样的数据包括时间、数值、字符。 优选的,所述步骤(5)中分隔符包括行分隔符,列分隔符,字段包围符,转义符。 本专利技术的另一方面,一种适应多种数据库数据格式的数据导入导出方装置,其特征在于,包括: 空值处理模块,用于捕获字段空值进行非空处理; 数据替换模块,用于实现无效数据、缺失数据的替换; 规范化数据格式模块,用于实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式; 拆分数据模块,用于依据业务需求对字段可进行分解; 分隔符设置模块,用于设置各种分隔符。 优选的,所述空值处理模块包括加载模块和替换模块,用于加载或替换空值为其他含义数据。 本专利技术的有益效果为:本专利技术摒弃了常见ETL工具所采用抽取,转换,加载顺序执行的方式,而是将抽取(E)与转换(T)相融合,使数据在被抽取的过程中就转换成了目的端需要的格式,从而提高了数据迁移的效率;而且,在执行导出命令之前,支持用户对多种分隔符进行设置,以使得导出结果符合多种目的系统的格式要求,从而使得数据在多种系统中的迁移变得更加快捷。 【附图说明】 图1是本专利技术的步骤示意图。 【具体实施方式】 下面结合具体实施例对本专利技术作进一步说明。 随着被记录的数据量的不断增大,数据在各个系统间进行迁移的时间成本越来越高;而且,在实施数据迁移的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题。 使用本专利技术,如图1所示,具体实现的方法为: (I)空值处理:可捕获字段空值,进行加载或替换为其他含义数据; (2)数据替换:可实现无效数据、缺失数据的替换; (3)规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义导出格式; (4)拆分数据:依据业务需求对字段可进行分解。例如某数据为主叫号862283945678-830,可进行区域码和电话号码分解;分解成区域码86、22和电话号码83945678-830 ; (5)分隔符设置:支持设置各种分隔符,包括行分隔符,列分隔符,字段包围符,转义符等。 以上对本专利技术的实施例进行了详细说明,但所述内容仅为本专利技术的较佳实施例,不能被认为用于限定本专利技术的实施范围。凡依本专利技术范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。本文档来自技高网...

【技术保护点】
一种适应多种数据库数据格式的数据导入导出方法,其特征在于,包括如下步骤:(1)空值处理:捕获字段空值进行非空处理;(2)数据替换:实现无效数据、缺失数据的替换;(3)规范化数据格式:实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式;(4)拆分数据:依据业务需求对字段可进行分解;(5)分隔符设置:设置各种分隔符。

【技术特征摘要】
1.一种适应多种数据库数据格式的数据导入导出方法,其特征在于,包括如下步骤: (1)空值处理:捕获字段空值进行非空处理; (2)数据替换:实现无效数据、缺失数据的替换; (3)规范化数据格式:实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式; (4)拆分数据:依据业务需求对字段可进行分解; (5)分隔符设置:设置各种分隔符。2.根据权利要求1所述的适应多种数据库数据格式的数据导入导出方法,其特征在于,所述步骤(I)中非空处理包括进行加载或替换为其他含义数据。3.根据权利要求1所述的适应多种数据库数据格式的数据导入导出方法,其特征在于,所述步骤(3)中格式多样的数据包括时间、数值、字符。4.根据权利要求1所...

【专利技术属性】
技术研发人员:单文伟王傲雷崔维力武新
申请(专利权)人:天津南大通用数据技术股份有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1