【技术实现步骤摘要】
一种多源异构数据采集方法、装置和存储介质
[0001]本申请涉及数据处理领域,尤其涉及一种多源异构数据采集方法、装置和存储介质。
技术介绍
[0002]21世纪是一个大数据时代,数据无处不在,存在于生活的方方面面。无论是出于数据分析还是产品需求,我们都需要从某些网站提取出我们感兴趣,有价值的内容。但由于收集数据是一个重复性工作,且人力有穷尽,所以爬虫应运而生,并且迅速的发展壮大。
[0003]数据采集接入作为数据应用、数字化的底层架构,在各个项目中的数据治理、数据资源汇集、统一的必备环节,具有不可替代的作用。
[0004]站在大数据角度,需要开展深化数据采集方法论研究,融合多种数据源,必须要考虑多源异构数据源的关联融合处理,巩固基础建设。
[0005]合理的数据采集方法是实现数据可用的关键步骤,数据来源多样性已成为大数据环境下的一个基本特征,而传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库,因此,在多样的信息源与海量的数据量环境下,数据采集技术面临的挑战 ...
【技术保护点】
【技术特征摘要】
1.一种多源异构数据采集方法,其特征在于,所述方法包括:确定数据源的类型,并配置所述数据源的数据源信息;配置任务调度器,所述任务调度器用于定时执行任务、周期执行任务、确定服务节点以及确定执行策略;创建数据采集任务,所述数据采集任务包括数据来源、数据目标源以及数据采集策略;通过配置好的任务调度器,按照所述数据采集策略执行所述数据采集任务;输出数据采集结果;通过配置好的任务调度器,按照所述数据采集策略执行所述数据采集任务包括:所述数据源信息中包含有数据源表格,所述数据源表格中列举有所需要采集的数据的字段;选中所述数据源,并下载所述数据源中的所有数据;在所述所有数据中确定待采集的目标源表格;根据所述数据源表格中的字段与所述目标源表格中字段的关联性,构建所述数据源表格与所述目标源表格的映射关系;依据所述映射关系进行数据采集。2.根据权利要求1中所述的多源异构数据采集方法,其特征在于,当数据源为网站时,所述配置所述数据源的数据源信息包括:获取预先配置好的采集脚本信息;若脚本为自定义脚本,则获取自定义脚本文件;若脚本为java脚本,则在获取脚本文件之后,配置脚本的包名、类名、方法名。3.根据权利要求1中所述的多源异构数据采集方法,其特征在于,当所述数据源为关系型数据库时,所述配置所述数据源的数据源信息包括:配置所述数据数据源的ip地址,端口,用户名和密码信息;所述关系型数据库包括:MySQL、Oracle、SQLServer、PostgreSQL、Hive、HDFS、MongoDB,Gbase、 Kingbase。4.根据权利要求1中所述的多源异构数据采集方法,其特征在于,所述配置任务调度器包括:配置阻塞处理策略、配置子任务、配置任务重试策略、配置任务执行触发策略和执行报警策略。5.根据权利要...
【专利技术属性】
技术研发人员:袁公萍,曹扬,谢红韬,龚昱鸣,周维,舒珏淋,胡建,
申请(专利权)人:中电科大数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。