一种高效的数据采集加载方法及系统技术方案

技术编号:25521121 阅读:38 留言:0更新日期:2020-09-04 17:11
本发明专利技术公开了一种高效的数据采集加载方法及系统,方法通过对数据的采集和加载两个步骤进行高度的集成化,用户只需要通过可视化页面选择一些必要的参数就能够实现数据采集到数据加载整个数据生命周期运行,实现从不同数据源将数据加载到GreenPlum简化了复杂的采集和加载步骤,自动化的采集和加载流程更加严格的控制了数据从初始地到目标地的安全性,提供的日志和实时监控可以更有效地对流程进行管理。本发明专利技术还提供一种高效的数据采集加载系统。通过本方案大幅度减少了用户的操作,通过自动化的方式来调度任务和监控,减少了运维的压力。

【技术实现步骤摘要】
一种高效的数据采集加载方法及系统
本专利技术涉及数据采集处理领域,尤其涉及一种高效的数据采集加载方法及系统。
技术介绍
随着信息化的日渐发展,在数据中蕴含的价值逐渐被人们所挖掘发现,数据的采集成了目前最热门的话题之一,业内已经有许多成熟的定向采集软件,其实现方法基本上都是基于模板配置来实现的,这些基于模板配置的数据抽取方法一般是正则匹配法,标记截取法,Xpath抽取法,插件定制法等。其中,关于正则匹配法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据,并且,该类抽取方法专业性较强,需要熟练掌握正则表达式;关于标记截取法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于Xpath抽取法:网页内容必须是结构化的,并且,该类抽取方法专业性较强,需要熟练掌握Xpath语法;另外,部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于插件定制法:频繁修改数据抽取规则代码都需要重新编译,显得比较麻烦,且专业性强。目前对于数据采集方式大多数操作较为繁琐、流程长,需要单独配置数据加载信息,无法快速高效本文档来自技高网...

【技术保护点】
1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:/nS1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;/nS2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;/nS3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;/nS4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。/n

【技术特征摘要】
1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:
S1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;
S2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;
S3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;
S4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。


2.根据权利要求1所述的一种高效的数据加载方法,其特征在于,所述步骤S1中可视化采集任务信息配置还包括以下子步骤:
S101,用户选择符合采集任务需求的表或表中的指定字段与分隔符;
S102,用户选择需要加载的表信息;
S103,用户可以添加相关的sql查询语句条件;
S104,用户选择数据采集的数据存储格式。

【专利技术属性】
技术研发人员:刘魁曹亮邓羽平
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1