【技术实现步骤摘要】
一种针对sqoop的数据采集测试优化方法
[0001]本专利技术涉及数据采集测试
,具体而言,涉及一种针对sqoop的数据采集测试优化方法。
技术介绍
[0002]sqoop是一款开源导数工具,用以对接数据仓库Hive与传统关系型数数据库间实现数据交换,可以将一个关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。当sqoop在测试环境中运行时,通常需要模拟未来场景。而sqoop数据增量采集需要限定技术时间,此技术时间与未来场景不匹配。若要在测试环境中进行数据增量采集,需要首先解决技术时间与业务时间不匹配的问题。
[0003]目前,解决技术时间与业务时间不匹配的问题的现有技术包括以下几种:一是采用直接推翻原有设计的方式,将sqoop同步依赖的采集方式改为异步文件采集方式,由数据产生方识别并生成增量数据,采集方直接获取。但是该方法对现有系统改动较大,风险比较高。二是采用不推翻原有设计的方式,在模拟未来式场景时,先修改测试环境的机器时间。但此方式要求测试资源独占,否则同一环境 ...
【技术保护点】
【技术特征摘要】
1.一种针对sqoop的数据采集测试优化方法,其特征在于,在源数据库和数据仓库之间搭建独立的备份库,通过所述备份库建立所述源数据库与所述数据仓库之间的数据采集测试测试通道,包括以下步骤:步骤1:参照所述源数据库的类型、版本和系统参数,安装和设置所述备份库;步骤2:根据当前项目需求,从所述源数据库中选出多个与所述当前项目需求对应的源库表,同时生成所述源数据库与所述备份库之间的配置列表;步骤3:通过所述配置列表,按照日期切片的方式将所述多个源库表的数据批量传输至所述备份库中,生成多个备份表;步骤4:根据当前项目需求,从所述数据仓库中选出多个与所述当前项目需求对应的采集表,同时生成所述数据仓库与所述备份库之间的采集配置列表;步骤5:根据所述采集配置列表,获取所述多个采集表的增量条件所使用的技术时间字段名;步骤6:根据获取的多个采集表的技术时间字段名,差异化修改所述多个备份表的技术时间,得到多个备份修正表;步骤7:通过所述采集配置列表在所述多个备份修正表和所述数据仓库之间进行数据采集测试。2.根据权利要求1所述的一种针对sqoop的数据采集测试优化方法,其特征在于,所述备份库安装和设置完成之后,验证所述备份库是否安装成功。3.根据权利要求1所述的一种针对sqoop的数据采集测试优化方法,其特征在于,在所述步骤2之前,对所述源数据库中所有源库表的配置信息进行粒度细化,得到所有源库表的标准配置信息,包括:环境、数据库名、表名、IP地址、端口、用户、密码和数据库类型。4.根据权利要求3所述的一种针对sqoop的数据采集测试优化方法,其特征在于,所述当前项目需求为多个待采集的采集表,所述配置列表包括多个与所述多个源库表对应的标准配置信息。5.根据权利要求1所述的一种针对sqoop的数据采集测试优化方法,其特征在于,所述步骤3中,数据批量传输的方式包括:利用开源工具进行数据传输和本地化数据传输。6.根据权利要求1所述的一种针对sqoop的数据采集测试优化方法,其特征在于,所述步骤3包括:步骤3.1:获取所述多个源库表中记载的多个不同的技术时间;步骤3...
【专利技术属性】
技术研发人员:邓海霞,黄小丹,
申请(专利权)人:四川新网银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。