本发明专利技术实施例提供一种数据采集方法、系统及网络设备,该方法包括:接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;若判定采集规则中具有过滤规则信息且数据源不支持结构化查询,则根据采集规则中的数据转化文件信息对数据源中的数据进行结构化转化提取,获得结构化数据;从过滤规则信息中提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至目标库地址对应的目标库中。通过在采集任务信息中配置数据源地址和目标库地址,实现了多源异构数据的数据采集,并通过将配置过滤规则信息同时不支持结构化查询的数据源数据进行结构化转化提取,实现了非结构化数据的采集和筛选。
Data collection method, system and network equipment
【技术实现步骤摘要】
数据采集方法、系统及网络设备
本专利技术实施例涉及大数据
,尤其涉及一种数据采集方法、系统及网络设备。
技术介绍
随着大数据技术的飞速发展,信息化数据种类越来越多、数据体量越来越大,如果能打破各业务系统的信息孤岛,将各类数据资源进行采集汇聚、集中管理、整合挖掘、共享服务,将会产生巨大的数据价值。为了实现数据的统一采集与交换,如何按照业务需求从各类数据中自动提取、筛选特定的数据,是当前大数据采集的主要挑战之一。现有的数据采集过程中,主要是通过ETL(ExtractTransformLoad,数据仓库技术)系统,对某个特定的数据源按照预先配置的规则抽取相应的数据,并对得到的数据进行存储。然而,专利技术人发现现有技术至少存在以下技术问题:现有的ETL系统只能抽取特定的数据源的数据,且只能抽取满足配置的规则的结构化的数据,适用范围单一,当数据源为多个、或被采集的数据为半结构化、非结构化数据时,无法完成数据采集。
技术实现思路
本专利技术实施例提供一种数据采集方法、系统及网络设备,实现了非结构化数据的采集和筛选。第一方面,本专利技术实施例提供一种数据采集方法,包括:接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;从所述过滤规则信息中提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。在一种可能的设计中,所述获取采集任务信息之后,还包括:若判定所述采集规则中不具有过滤规则信息,则根据所述数据源地址提取对应的数据源的数据,并将所述数据源的数据保存至目标库地址对应的目标库中。在一种可能的设计中,所述根据所述数据源地址查询对应的数据源是否支持结构化查询之后,还包括:若所述数据源支持结构化查询,则执行根据滤规则信息提取各过滤条件字段的步骤。在一种可能的设计中,所述在从所述过滤规则信息中提取各过滤条件字段之前,还包括:将所述结构化数据保存至一个或多个中间库中;所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中,包括:根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。在一种可能的设计中,所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中之后,还包括:通过信息摘要MD5加密算法对保存在目标库的数据进行检验。第二方面,本专利技术实施例提供一种数据采集系统,包括:任务调动模块、筛选配置模块和采集代理模块;其中,所述筛选配置模块,用于接收用户输入的采集规则信息,并发送至所述任务调动模块;所述任务调动模块,用于根据用户的输入和获取的采集规则信息生成采集任务信息,并将所述采集任务信息发送至所述采集代理模块;所述采集代理模块,用于:接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;若判定所述采集规则中是否具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;根据所述过滤规则信息提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。在一种可能的设计中,所述系统还包括:中间库;所述中间库,用于将所述结构化数据保存至一个或多个中间库中;根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。在一种可能的设计中,所述筛选配置模块,还用于根据用户输入生成字段映射配置信息;所述采集代理模块,用于根据所述字段映射配置信息从所述过滤规则信息中提取各过滤条件字段。第三方面,本专利技术实施例提供一种网络设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的涉设计的所述的数据采集方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的数据采集方法。本专利技术实施例提供的数据采集方法、系统及网络设备,该方法通过在采集任务信息中配置数据源地址和目标库地址,实现了多源异构数据的数据采集,并通过将已配置过滤规则信息同时不支持结构化查询的数据源数据进行结构化转化提取,根据采集任务信息将多源的数据汇集到目标库中,实现了非结构化数据的采集和筛选。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的数据采集方法应用场景示意图;图2为本专利技术实施例提供的数据采集方法的流程示意图一;图3为本专利技术实施例提供的数据采集方法的流程示意图二;图4为本专利技术实施例提供的数据采集装置的结构示意图;图5为本专利技术实施例提供的数据采集系统的结构示意图;图6为本专利技术实施例提供的网络设备的硬件结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的数据采集方法应用场景示意图,如图1所示:本专利技术实施例中数据采集方法应用场景主要包括:目标端101,数据采集装置102以及数据源端103。其中,数据采集装置102负责采集数据源端103中的数据,并将采集的数据存储至目标库101端。数据源端103和目标端101可能为不同种类的数据存储终端,例如大数据云存储端、企业后台大型机或政府机构后台大型机,不同终端的数据库的数据存储结构可能不同。为了更有效的共享和利用数据资源,不同终端的数据库之间可以通过数据采集和存储交换实现数据资源的整合和管理。例如,当数据源端103为大数据云存储端、目标端101为企业后台大型机时,企业后台大型机可以通过数据采集和交换,获得云存储端存储的历史服务数据,企业后台大型机可以根据采集的历史服务数据提升现有业务和解决企业服务问题。但是,现有的数据采集方法本文档来自技高网...
【技术保护点】
1.一种数据采集方法,其特征在于,包括:/n接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;/n若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;/n若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;/n从所述过滤规则信息中提取各过滤条件字段;/n保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。/n
【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:
接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;
若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;
若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;
从所述过滤规则信息中提取各过滤条件字段;
保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。
2.根据权利要求1所述的方法,其特征在于,所述获取采集任务信息之后,还包括:
若判定所述采集规则中不具有过滤规则信息,则根据所述数据源地址提取对应的数据源的数据,并将所述数据源的数据保存至目标库地址对应的目标库中。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据源地址查询对应的数据源是否支持结构化查询之后,还包括:
若所述数据源支持结构化查询,则执行根据滤规则信息提取各过滤条件字段的步骤。
4.根据权利要求1所述的方法,其特征在于,所述在从所述过滤规则信息中提取各过滤条件字段之前,还包括:
将所述结构化数据保存至一个或多个中间库中;
所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中,包括:
根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中之后,还包括:
通过信息摘要MD5加密算法对保存在目标库的数据进行检验。
6.一种数据采集系统,其特征在于,包括:任务...
【专利技术属性】
技术研发人员:张权,谢云龙,吕烨,
申请(专利权)人:中国联合网络通信集团有限公司,联通大数据有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。