本发明专利技术实施例公开了一种多源数据的采集方法、装置、设备及存储介质。包括:根据待采集数据的数据源类型确定接入策略;根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。本发明专利技术实施例公开的多源数据的采集方法,针对不同的数据源确定对应的接入策略,基于确定的接入策略对待采集数据中的结构化数据转化为设定格式后发送至设定采集队列中,将待采集数据中的非结构化数据上传至设定存储器中,实现对多源异构数据的采集,提高数据采集的效率。
【技术实现步骤摘要】
多源数据的采集方法、装置、设备及存储介质
本专利技术实施例涉及数据采集
,尤其涉及一种多源数据的采集方法、装置、设备及存储介质。
技术介绍
随着大数据的快速发展,物联网以及互联网的快速发展引领信息行业走向了新的高潮,而数据采集作为信息产业的核心技术,针对多源异构的数据采集已经成为物联网以及互联网系统的核心技术问题。目前市场开源的数据采集系统有:flume、datax、logstash等等,这些技术对于采集一些常见的结构化数据能够支持,但是对于一些非结构化数据以及特殊格式的结构化数据并不能很好的支持。大数据时代,信息的时效性有限,能在较短的时间内收集多源异构数据显得尤为重要。
技术实现思路
本专利技术实施例提供一种多源数据的采集方法、装置、设备及存储介质,可以实现对多源异构数据的采集,提高数据采集的效率。第一方面,本专利技术实施例提供了一种多源数据的采集方法,包括:根据待采集数据的数据源类型确定接入策略;根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。进一步地,在根据待采集数据的数据源类型确定接入策略之前,还包括:根据各数据源类型配置任务参数,并确定所需采集的字段信息;根据所述任务参数和所述字段信息生成各数据源分别对应的接入策略;将所述接入策略上传至采集系统中。进一步地,根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,包括:根据所述字段信息获取结构化数据中的关键词以及所述关键词对应的数值;根据所述关键词和所述数值生成设定格式的数据。进一步地,根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中,包括:当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将所述待采集数据中的非结构化数据上传至设定存储器中。进一步地,在根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式之前,还包括:根据所述接入策略确定所述待采集数据的类型;所述类型包括结构化数据和非结构化数据。进一步地,还包括:统计采集的结构化数据和非结构化数据的数量,获得采集量;统计异常数据量;统计数据输出量;所述数据输出量包括发送至所述设定采集队列中的数据量和上传至所述设定存储器中的数据量;将所述采集量、异常数据量及所述数据输出量进行实时显示。进一步地,所述设定采集队列为Kafka队列;所述设定存储器为HDFS。第二方面,本专利技术实施例还提供了一种多源数据的采集装置,包括:接入策略确定模块,用于根据待采集数据的数据源类型确定接入策略;格式转化模块,用于根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;数据存储模块,用于根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。第三方面,本专利技术实施例还提供了一种计算机设备,所述设备包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术实施例所述的多源数据的采集方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理装置执行时实现如本专利技术实施例所述的多源数据的采集方法。本专利技术实施例提供了一种多源数据的采集方法、装置、设备及存储介质,首先根据待采集数据的数据源类型确定接入策略,然后根据接入策略将待采集数据中的结构化数据转化为设定格式,并将设定格式的数据发送至设定采集队列中,最后根据接入策略将待采集数据中的非结构化数据上传至设定存储器中。本专利技术实施例公开的多源数据的采集方法,针对不同的数据源确定对应的接入策略,基于确定的接入策略对待采集数据中的结构化数据转化为设定格式后发送至设定采集队列中,将待采集数据中的非结构化数据上传至设定存储器中,实现对多源异构数据的采集,提高数据采集的效率。附图说明图1是本专利技术实施例一中的一种多源数据的采集方法的流程图;图2是本专利技术实施例二中的一种多源数据的采集装置的结构示意图;图3是本专利技术实施例三中的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种多源数据的采集方法的流程图,本实施例可适用于对不同数据源的数据进行采集的情况,该方法可以由多源数据的采集装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有多源数据的采集功能的设备中,该设备可以是服务器或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:步骤110,根据待采集数据的数据源类型确定接入策略。其中,数据源的类型可以包括数据块类型、FPT类型及Kafka类型等。接入策略可以根据数据源的类确定的,包括需要配置的任务参数及所需采集的字段信息等。例如:若数据源的类型为数据库类型,需要配置的参数包括URL、用户名及密码等。本实施例中,数据源类型与接入策略一一对应。可选的,在根据待采集数据的数据源类型确定接入策略之前,还包括如下步骤:根据各数据源类型配置任务参数,并确定所需采集的字段信息;根据任务参数和字段信息生成各数据源分别对应的接入策略;将接入策略上传至采集系统中。其中,将接入策略上传至采集系统中的过程可以是通过采集系统的web页面上传接入策略。具体的,采集数据时,首先判断数据源的类型,然后根据数据源类型选择对应的接入策略,以根据接入策略采集数据。步骤120,根据接入策略将待采集数据中的结构化数据转化为设定格式,并将设定格式的数据发送至设定采集队列中。其中,设定采集队列可以是Kafka队列。接入策略中包含判断数据类型的策略。本实施例中,在根据接入策略将待采集数据中的结构化数据转化为设定格式之前,还包括根据接入策略确定待采集数据是结构化数据还是非结构化数据的步骤。具体的,根据接入策略将待采集数据中的结构化数据转化为设定格式的方式可以是:根据字段信息获取结构化数据中的关键词以及关键词对应的数值;根据关键词和数值生成设定格式的数据。其中,设定格式可以是k-value格式。本实施例中,通过接入策略拿到key,然后抽取的数据值为value,组成k-v格式的数据。将结构化数据发送至Kafka队列,方便后续进行处理以及提取分析。步骤130,根据接入策略将待采集数据中的非结构化数据上传至设定存储器中。其中,设定存储器可以是HDFS。具体的,根据接入策略将待采集数据中的非结构化数据上传至设定存储器中的方式可以是:本文档来自技高网...
【技术保护点】
1.一种多源数据的采集方法,其特征在于,包括:/n根据待采集数据的数据源类型确定接入策略;/n根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;/n根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。/n
【技术特征摘要】
1.一种多源数据的采集方法,其特征在于,包括:
根据待采集数据的数据源类型确定接入策略;
根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;
根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。
2.根据权利要求1所述的方法,其特征在于,在根据待采集数据的数据源类型确定接入策略之前,还包括:
根据各数据源类型配置任务参数,并确定所需采集的字段信息;
根据所述任务参数和所述字段信息生成各数据源分别对应的接入策略;
将所述接入策略上传至采集系统中。
3.根据权利要求2所述的方法,其特征在于,根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,包括:
根据所述字段信息获取结构化数据中的关键词以及所述关键词对应的数值;
根据所述关键词和所述数值生成设定格式的数据。
4.根据权利要求1所述的方法,其特征在于,根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中,包括:
当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将所述待采集数据中的非结构化数据上传至设定存储器中。
5.根据权利要求1所述的方法,其特征在于,在根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式之前,还包括:
根据所述接入...
【专利技术属性】
技术研发人员:张俊威,谢永恒,程强,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。