一种增量数据卸载和装载的实施工具制造技术

技术编号:7202981 阅读:1599 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种增量数据卸载和装载的实施工具,属于一种数据管理的应用技术,通过配置文件结合SHELL脚本和数据库自带ETL工具实现了数据源的增量-全量判断抽取和装载处理;步骤如下:(1)设置配置文件、公共参数:通过配置文件对源数据库中待抽取表的内容和抽取方式进行描述;(2)运行抽取程序、状态记录:由抽取程序统一调度进行数据抽取,同时由状态记录程序记录抽取状态、抽取数据量的信息,抽取过程支持中断继续和自动压缩;(3)数据装载:由装载程序对数据进行装载,数据装载过程中进行增量-全量的判断并作全量处理和数据量核对检查。本发明专利技术方便了应用系统的运维管理,并降低了实施难度。

【技术实现步骤摘要】

本专利技术涉及一种数据管理的应用技术,具体地说是一种增量数据卸载和装载的实施工具
技术介绍
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。目前数据ETL工具很多,虽然功能较多,但也有价格高和效率低的缺点。对于并不复杂的抽取逻辑和对数据量较大对效率要求较高的情况,使用一款便捷高效的数据抽取装载工具就显得尤为重要。
技术实现思路
本专利技术的技术任务是提供一种通过配置文件结合SHELL脚本和数据库自带ETL工具实现了数据源的增量-全量判断抽取和装载处理,方便了应用系统的运维管理,并降低了实施难度的一种增量数据卸载和装载的实施工具。本专利技术的技术任务是按以下方式实现的,通过配置文件结合SHELL脚本和数据库自带ETL工具实现了数据源的增量-全量判断抽取和装载处理;步骤如下(1)、设置配置文件、公共参数通过配置文件对源数据库中待抽取表的内容和抽取方式进行描述;(2)、运行抽取程序、状态记录由抽取程序统一调度进行数据抽取,同时由状态记录程序记录抽取状态、抽取数据量的信息,抽取过程支持中断继续和自动压缩;(3)、数据装载由装载程序对数据进行装载,数据装载过程中进行增量-全量的判断并作全量处理和数据量核对检查。配置文件格式为自定义文本,便于同SHELL脚本程序交互,并在其中设置数据源 DB连接关键信息、抽取内容和全量或增量的抽取方式的要素。CFG数据库配置文件如下 vpms_dbinfo. cfg#数据库服务名称 DB_NAME=rptdb #数据库访问用户名 DB_USER_NAME=ods #数据库访问密码 DB USER PASSffORD=OdsCFG抽取配置文件如下vpms—exp—tblist. cfg##1.1账务交易流水+0DS_CMTXLHIS:A: select * from ODS. 0DS_CMTXLHIS where CORPORATION='法人标示,and DAY_ID=,?,##1.8员工变更登记簿+0DS_CMREPREP:A:#1.3.个人(单位)客户信息档+0DS_CICIFCIF:D:#1. 4客户/存放款帐号资料+0DS_CICIFACN:D:select chg_acct_no(ci_acct_no),a. * from ODS. 0DS_CICIFACN a where CORPORATION='法人标示,# 配置文件程序中,每行用冒号““分为4个部分1)第1部分表名称,用于抽取文本的命名,以加号"+"开头,且前面不能有空格空字符,这个加号"+"作为配置抽取项的标志;2)第2部分增量标志A 只取全量,表示不做本地增量一全量处理, I 只取增量,表示要做本地增量一全量处理, D 由参数指定是取全量或增量;3)第3部分抽取SQL语句,对于不同增量标志,此语句的含义分别是 A 代表全量抽取语句,I 代表增量抽取语句,D 代表全量或增量抽取语句,如果是增量,那么程序会自动加上DAY_ID的判断过滤条件;如果不填写默认为 select * from $ {table_name} where CORPORATION='法人标示,, 要加上CORPORATION='法人标示’的条件,以限定数据范围;4)第4部分,查询表数据量的语句,用于核对,如果不填写,则默认查询表名称对应的源表的数据量。 抽取程序如下1)vpms_public.sh公共参数定义包含程序路径、数据库参数文件、日志路径、日志文件、抽取配置文件、 卸载目录参数信息;公共函数定义包含日志信息格式化、创建多层目录、获取数据库参数、创建和断开数据库连接、月末日期判别函数定义;2)vpms_exp_vpmssrc. sh抽取数据主程序,实现方式是循环遍历抽取配置文件信息;逐个判断抽取方式和内容, 并封装export命令进行数据抽取、压缩存放; 3) export_auto. sh根据实际需要,自动根据数据日期进行判断用全量还是增量方式抽取。装载程序如下 loaddata. sh根据数据文件中的增量或全量标示,自动判断采用全量装载还是增量装载后做全量处理,并对装载和处理结果做数据量的一致性核对,保障数据完整性。状态记录程序为数据抽取控制状态文件${date}_eXport. list记录每个日期各个源表抽取结果状态,已经成功抽取的部分,程序会跳过避免重复抽取。数据抽取流程为调度程序入口 VpmS_eXp_VpmSSrc. sh —输入抽取类型和抽取数据日期一创建数据卸载目录一循环提取配置信息,即提取CFG数据库配置文件vpms_ dbinfo. cfg或CFG抽取配置文件vpms_exp_tblist. cfg —判断抽取状态,即数据抽取控制状态文件${date}_eXp0rt. list导入,若已经成功抽取,返回循环提取配置信息;若未成功抽取一判断抽取方式是增量还是全量或根据输入参数判断抽取方式是增量还是全量,若是增量则设定增量文件后缀,若是全量则设定全量文件后缀一执行eXport_aUt0. sh抽取一判断是否抽取成功,若不成功记录异常情况返回循环提取配置信息;若成功则压缩文件记录状态到控制状态文件${date}_eXport. list —抽取全部完成退出。数据装载流程为拼接数据文件名称一清空增量表一通过装载程序loaddata. sh 判断数据文件标示,若不存在则异常退出程序,若为增量则LOAD装载增量表并进行增量到全量处理,若为全量则LOAD装载全量表一核对数据总量一一致则成功退出,不一致则异常退出。本专利技术的一种增量数据卸载和装载的实施工具具有以下优点1、可配置抽取方式为增量或全量,可灵活指定数据抽取内容和条件;2、可在运行时选择增量或全量抽取或自动根据日期判断选择抽取方式;3、记录抽取状态,支持抽取中断后继续;4、自动压缩,节省磁盘空间;5、EXPORT和LOAD命令抽取和装载数据,高效稳定;6、数据量核对检查,保障处理过程的质量;7、是一种便捷高效的数据抽取和装载工具,可用于各类需要从数据库抽取源数据的系统。附图说明下面结合附图对本专利技术进一步说明。附图1为一种增量数据卸载和装载的实施工具的总体结构图; 附图2为一种增量数据卸载和装载的实施工具的数据抽取流程图; 附图3为一种增量数据卸载和装载的实施工具的数据装载流程图。具体实施例方式参照说明书附图和具体实施例对本专利技术的一种增量数据卸载和装载的实施工具作以下详细地说明。实施例本专利技术的一种增量数据卸载和装载的实施工具,通过配置文件结合SHELL脚本和数据库自带ETL工具实现了数据源的增量-全量判断抽取和装载处理;步骤如下(1)、设置配置文件、公共参数通过配置文件对源数据库中待抽取表的内容和抽取方式进行描述;(2)、运行抽取程序、状态记录由抽取程序统一调度进行数据抽取,同时由状态记录程序记录抽取状态、抽取数据量的信息,抽取过程支持中断继续和自动压缩;(3)、数据本文档来自技高网...

【技术保护点】
1.一种增量数据卸载和装载的实施工具,其特征在于通过配置文件结合SHELL脚本和数据库自带ETL工具实现了数据源的增量-全量判断抽取和装载处理;步骤如下:(1)、设置配置文件、公共参数:通过配置文件对源数据库中待抽取表的内容和抽取方式进行描述;(2)、运行抽取程序、状态记录:由抽取程序统一调度进行数据抽取,同时由状态记录程序记录抽取状态、抽取数据量的信息,抽取过程支持中断继续和自动压缩;(3)、数据装载:由装载程序对数据进行装载,数据装载过程中进行增量-全量的判断并作全量处理和数据量核对检查。

【技术特征摘要】

【专利技术属性】
技术研发人员:张家重宋凯把余咏李衍珠于海泉祝鹏
申请(专利权)人:山东浪潮金融信息系统有限公司
类型:发明
国别省市:88

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1