【技术实现步骤摘要】
多源数据的采集方法、装置、设备及存储介质
本专利技术实施例涉及数据采集
,尤其涉及一种多源数据的采集方法、装置、设备及存储介质。
技术介绍
随着大数据的快速发展,物联网以及互联网的快速发展引领信息行业走向了新的高潮,而数据采集作为信息产业的核心技术,针对多源异构的数据采集已经成为物联网以及互联网系统的核心技术问题。目前市场开源的数据采集系统有:flume、datax、logstash等等,这些技术对于采集一些常见的结构化数据能够支持,但是对于一些非结构化数据以及特殊格式的结构化数据并不能很好的支持。大数据时代,信息的时效性有限,能在较短的时间内收集多源异构数据显得尤为重要。
技术实现思路
本专利技术实施例提供一种多源数据的采集方法、装置、设备及存储介质,可以实现对多源异构数据的采集,提高数据采集的效率。第一方面,本专利技术实施例提供了一种多源数据的采集方法,包括:根据待采集数据的数据源类型确定接入策略;根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将 ...
【技术保护点】
1.一种多源数据的采集方法,其特征在于,包括:/n根据待采集数据的数据源类型确定接入策略;/n根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;/n根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。/n
【技术特征摘要】
1.一种多源数据的采集方法,其特征在于,包括:
根据待采集数据的数据源类型确定接入策略;
根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,并将所述设定格式的数据发送至设定采集队列中;
根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中。
2.根据权利要求1所述的方法,其特征在于,在根据待采集数据的数据源类型确定接入策略之前,还包括:
根据各数据源类型配置任务参数,并确定所需采集的字段信息;
根据所述任务参数和所述字段信息生成各数据源分别对应的接入策略;
将所述接入策略上传至采集系统中。
3.根据权利要求2所述的方法,其特征在于,根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式,包括:
根据所述字段信息获取结构化数据中的关键词以及所述关键词对应的数值;
根据所述关键词和所述数值生成设定格式的数据。
4.根据权利要求1所述的方法,其特征在于,根据所述接入策略将所述待采集数据中的非结构化数据上传至设定存储器中,包括:
当非结构化数据的量达到第一设定值和/或采集的时长超过设定第二设定值时,将所述待采集数据中的非结构化数据上传至设定存储器中。
5.根据权利要求1所述的方法,其特征在于,在根据所述接入策略将所述待采集数据中的结构化数据转化为设定格式之前,还包括:
根据所述接入...
【专利技术属性】
技术研发人员:张俊威,谢永恒,程强,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。