【技术实现步骤摘要】
一种高效的数据采集加载方法及系统
本专利技术涉及数据采集处理领域,尤其涉及一种高效的数据采集加载方法及系统。
技术介绍
随着信息化的日渐发展,在数据中蕴含的价值逐渐被人们所挖掘发现,数据的采集成了目前最热门的话题之一,业内已经有许多成熟的定向采集软件,其实现方法基本上都是基于模板配置来实现的,这些基于模板配置的数据抽取方法一般是正则匹配法,标记截取法,Xpath抽取法,插件定制法等。其中,关于正则匹配法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据,并且,该类抽取方法专业性较强,需要熟练掌握正则表达式;关于标记截取法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于Xpath抽取法:网页内容必须是结构化的,并且,该类抽取方法专业性较强,需要熟练掌握Xpath语法;另外,部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于插件定制法:频繁修改数据抽取规则代码都需要重新编译,显得比较麻烦,且专业性强。目前对于数据采集方式大多数操作较为繁琐、流程长,需要单独配置数据加 ...
【技术保护点】
1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:/nS1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;/nS2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;/nS3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;/nS4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。/n
【技术特征摘要】 【专利技术属性】
1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:
S1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;
S2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;
S3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;
S4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。
2.根据权利要求1所述的一种高效的数据加载方法,其特征在于,所述步骤S1中可视化采集任务信息配置还包括以下子步骤:
S101,用户选择符合采集任务需求的表或表中的指定字段与分隔符;
S102,用户选择需要加载的表信息;
S103,用户可以添加相关的sql查询语句条件;
S104,用户选择数据采集的数据存储格式。
技术研发人员:刘魁,曹亮,邓羽平,
申请(专利权)人:成都信息工程大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。