一种高效的数据采集加载方法及系统技术方案

技术编号:25521121 阅读:22 留言:0更新日期:2020-09-04 17:11
本发明专利技术公开了一种高效的数据采集加载方法及系统,方法通过对数据的采集和加载两个步骤进行高度的集成化,用户只需要通过可视化页面选择一些必要的参数就能够实现数据采集到数据加载整个数据生命周期运行,实现从不同数据源将数据加载到GreenPlum简化了复杂的采集和加载步骤,自动化的采集和加载流程更加严格的控制了数据从初始地到目标地的安全性,提供的日志和实时监控可以更有效地对流程进行管理。本发明专利技术还提供一种高效的数据采集加载系统。通过本方案大幅度减少了用户的操作,通过自动化的方式来调度任务和监控,减少了运维的压力。

【技术实现步骤摘要】
一种高效的数据采集加载方法及系统
本专利技术涉及数据采集处理领域,尤其涉及一种高效的数据采集加载方法及系统。
技术介绍
随着信息化的日渐发展,在数据中蕴含的价值逐渐被人们所挖掘发现,数据的采集成了目前最热门的话题之一,业内已经有许多成熟的定向采集软件,其实现方法基本上都是基于模板配置来实现的,这些基于模板配置的数据抽取方法一般是正则匹配法,标记截取法,Xpath抽取法,插件定制法等。其中,关于正则匹配法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据,并且,该类抽取方法专业性较强,需要熟练掌握正则表达式;关于标记截取法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于Xpath抽取法:网页内容必须是结构化的,并且,该类抽取方法专业性较强,需要熟练掌握Xpath语法;另外,部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于插件定制法:频繁修改数据抽取规则代码都需要重新编译,显得比较麻烦,且专业性强。目前对于数据采集方式大多数操作较为繁琐、流程长,需要单独配置数据加载信息,无法快速高效的为用户提供数据采集服务。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种高效的数据采集加载方法及系统,通过一体化管理的思想,将数据采集和数据加载,任务调度,实时监控等进行自动化整合来构建高效快捷的数据从采集到加载的工作的一体化。本专利技术的目的是通过以下技术方案来实现的:一种高效的数据采集加载方法,方法包括以下步骤:S1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;S2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;S3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;S4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。具体的,所述步骤S1中可视化采集任务信息配置还包括以下子步骤:S101,用户选择符合采集任务需求的表或表中的指定字段与分隔符;S102,用户选择需要加载的表信息;S103,用户可以添加相关的sql查询语句条件;S104,用户选择数据采集的数据存储格式。具体的,所述步骤S2中获取数据源信息过程还包括以下子步骤:S201,获取数据源的字段类型、数据分割符;S202,获取目标表的表名及字段信息;S203,获取相关sql查询语句。具体的,所述步骤S2中执行采集任务具体包括以下子步骤:S301,开始运行采集任务,根据采集任务配置采集所需数据存储到指定目录下;S302,将获取的数据源字段类型、分隔符、目标表等信息加载到.yml模板中生成新的.yml模板文件存储到指定目录下。一种高效的数据采集加载系统,包括数据存储模块,用于存储用户配置的采集任务信息、采集的数据和生成文件;数据采集模块,根据用户配置的采集任务采集指定数据存储到数据存储模块,并将采集数据放入模板生成模板文件也存储到数据存储模块;数据加载模块,用于获取数据源信息,结合模板文件生成脚本自动从数据存储模块中加载数据。本专利技术的有益效果:本方案大幅度减少了用户的操作,用户只需要配置一些简单的采集配置信息,就可以实现数据的采集和加载,通过自动化的方式来调度任务和监控,减少了运维的压力。附图说明图1是本专利技术的方法流程图。图2是本专利技术的采集任务的执行示意图。图3是本专利技术的任务采集加载执行流程图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式。本实施例中,如图1所示,一种高效的数据采集加载方法,方法包括以下步骤:步骤1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置。具体的采集任务配置信息包括用户选择符合采集任务需求的表或表中的指定字段、分隔符、数据存储格式,以及需要加载的表信息,同时用户可以在添加相关的SQL查询语句和条件。步骤2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息数据源的字段类型、数据分割符、目标表的表名及字段信息,以及sql查询语句。完成后开始执行采集任务,根据采集任务配置采集所需数据存储到指定目录下,将获取的数据源字段类型、分隔符、目标表等信息加载到.yml模板中生成新的.yml模板文件存储到指定目录下。步骤3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后,自动运行shell脚本运行gpload加载数。步骤4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。若加载成功返回成功状态,若加载失败则返回异常代码。本实施例中,如图2和图3所示,用户只需要通过可视化页面选择一些必要的参数就能够实现数据采集到数据加载整个数据生命周期运行。在数据采集模块中,用户只需在界面上根据业务需求进行数据源、目标数据、映射关系等进行配置,具体实现方式用户不需要关心。当采集任务执行时,程序会从用户的配置信息中读取相关信息,通过选择的数据库类型和目标数据映射关系等,通过JDBC与SQL结合的方式对数据库支持的查询方式进行生成,完成数据的采集。其中,数据采集和加载过程中,通过实时监控方式来反馈数据数据的采集加载进程,可以提高数据采集和加载的执行效率。当数据采集任务开始执行时,就会开始数据加载准备工作。所有的数据加载配置信息都来自于数据采集模块,不需要用户再去配置数据加载模块。数据加载前会先获取数据源的表结构信息、列信息与分隔符等必要信息,随后利用模板技术将数据与事先准备好的模板文件进行融合,形成对应的脚本。之后程序自动调用该脚本,达到高度自动化的脚本运行。本专利技术将采集任务的执行分离出来,提供统一HTTP方式的任务管理,实现任务的注册、配置、启动、停止、修改、删除等操作,提供多种执行策略,实现数据采集和数据发送的分离与高效执行。本实施例中,还提供一种高效的数据采集加载系统,包括数据存储模块、数据采集模块和数据加载模块。其中,数据存储模块用于存储用户配置的采集任务信息、采集的数据和生成文件。数据采集模块用于根据用户配置的采集任务采集指定数据存储到数据存储模块,并将采集数据放入模板生成模板文件也存储到数据存储模块。数据加载模块用于获取数据源信息,结合模板文件生成脚本自动从数据存储模块中加载数据。以上显示和描述了本专利技术的基本原理和主要特征和本专利技术的优点。本行业的技术人员本文档来自技高网...

【技术保护点】
1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:/nS1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;/nS2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;/nS3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;/nS4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。/n

【技术特征摘要】
1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:
S1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;
S2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;
S3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;
S4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。


2.根据权利要求1所述的一种高效的数据加载方法,其特征在于,所述步骤S1中可视化采集任务信息配置还包括以下子步骤:
S101,用户选择符合采集任务需求的表或表中的指定字段与分隔符;
S102,用户选择需要加载的表信息;
S103,用户可以添加相关的sql查询语句条件;
S104,用户选择数据采集的数据存储格式。

【专利技术属性】
技术研发人员:刘魁曹亮邓羽平
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1