【技术实现步骤摘要】
数据采集方法、系统及网络设备
本专利技术实施例涉及大数据
,尤其涉及一种数据采集方法、系统及网络设备。
技术介绍
随着大数据技术的飞速发展,信息化数据种类越来越多、数据体量越来越大,如果能打破各业务系统的信息孤岛,将各类数据资源进行采集汇聚、集中管理、整合挖掘、共享服务,将会产生巨大的数据价值。为了实现数据的统一采集与交换,如何按照业务需求从各类数据中自动提取、筛选特定的数据,是当前大数据采集的主要挑战之一。现有的数据采集过程中,主要是通过ETL(ExtractTransformLoad,数据仓库技术)系统,对某个特定的数据源按照预先配置的规则抽取相应的数据,并对得到的数据进行存储。然而,专利技术人发现现有技术至少存在以下技术问题:现有的ETL系统只能抽取特定的数据源的数据,且只能抽取满足配置的规则的结构化的数据,适用范围单一,当数据源为多个、或被采集的数据为半结构化、非结构化数据时,无法完成数据采集。
技术实现思路
本专利技术实施例提供一种数据采集方法、系统及网络设备,实现了非结构 ...
【技术保护点】
1.一种数据采集方法,其特征在于,包括:/n接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;/n若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;/n若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;/n从所述过滤规则信息中提取各过滤条件字段;/n保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。/n
【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:
接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;
若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;
若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;
从所述过滤规则信息中提取各过滤条件字段;
保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。
2.根据权利要求1所述的方法,其特征在于,所述获取采集任务信息之后,还包括:
若判定所述采集规则中不具有过滤规则信息,则根据所述数据源地址提取对应的数据源的数据,并将所述数据源的数据保存至目标库地址对应的目标库中。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据源地址查询对应的数据源是否支持结构化查询之后,还包括:
若所述数据源支持结构化查询,则执行根据滤规则信息提取各过滤条件字段的步骤。
4.根据权利要求1所述的方法,其特征在于,所述在从所述过滤规则信息中提取各过滤条件字段之前,还包括:
将所述结构化数据保存至一个或多个中间库中;
所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中,包括:
根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中之后,还包括:
通过信息摘要MD5加密算法对保存在目标库的数据进行检验。
6.一种数据采集系统,其特征在于,包括:任务...
【专利技术属性】
技术研发人员:张权,谢云龙,吕烨,
申请(专利权)人:中国联合网络通信集团有限公司,联通大数据有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。