【技术实现步骤摘要】
大数据环境下基于Spoon的通用数据库抽取方法
本专利技术属于计算机
,具体涉及一种大数据环境下基于Spoon的通用数据库抽取方法。
技术介绍
在信息化的时代,每天都会产生海量的数据,例如电子商务网站的购物信息、火车票购买平台的交易信息、实时聊天工具的聊天信息、工业生产现场采集的相关信息等等,为了方便管理与查阅,这些数据都会存入相应的数据库中。企业、工厂、研究所等机构在处理自身拥有的海量、高增长率和多样化的信息资产时,发现已经无法使用传统的数据库管理软件进行高效的管理,必须采用新的处理模式,从海量的数据中提取出有价值的信息。由此,大数据技术应运而生。大数据技术的战略意义在于对于包含有用信息的海量数据进行数据挖掘,提取出有价值的信息。大数据需要特殊的技术,例如大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据环境下,海量数据存储在不同的数据库中,不同的数据库在数据结构方面往往存在较大的差别,如何快捷高效地从不同的数据库中提取出相关数据,同时实现不同数据库间数据结构的转换对于数据挖掘的实现非常关键 ...
【技术保护点】
一种大数据环境下基于Spoon的通用数据库抽取方法,其特征在于该方法包括如下步骤:1)通过Spoon建模工具制作执行流程图;2)执行流程图相关参数配置;3)Spoon工具中执行测试;4)生成可执行的模板文件;5)搭建Spoon、Velocity在java中可执行的环境;6)设计generateVM方法;7)设计executeSpoon方法;8)设计Java调用的入口方法。
【技术特征摘要】
1.一种大数据环境下基于Spoon的通用数据库抽取方法,其特征在于该方法包括如下步骤:1)通过Spoon建模工具制作执行流程图;2)执行流程图相关参数配置;3)Spoon工具中执行测试;4)生成可执行的模板文件;5)搭建Spoon、Velocity在java中可执行的环境;6)设计generateVM方法;7)设计executeSpoon方法;8)设计Java调用的入口方法。2.根据权利要求1所述的方法,其特征在于所述步骤2)中所述相关参数包括表输入数据库连接信息、表输出数据库连接信息、表输出数据库表、表输出字段映射配置和大数据量的分页及循环设置。3.根据权利要求1所述的方法,其特征在于所述步骤3)中所述测试包括transformation验证和影响分析。4.根据权利要求1所述的方法,其特征在于所述步骤4)中按Velocity模板技术的规则在XML中进行动态设置参数。5.根据权利要求4所述的方法,其特征在于所述参数包括源数据库连接中的${source_name}、${source_server}、以及字段属性${source_colum1}、${source_colum2},目标数据库连接中的${target_name}、${tar...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。