数据采集方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33156925 阅读:18 留言:0更新日期:2022-04-22 14:13
本发明专利技术涉及数据处理领域,揭露一种数据采集方法,包括:识别数据采集需求的数据类别,数据类别包括行为数据和业务数据;在数据类别为业务数据时,从业务数据库中获取待采集数据,采用主备复制的方式将业务数据库的待采集数据加载至数据同步组件,基于预构建的容错机制将数据同步组件的数据存储至消息中间件;在数据类别为行为数据时,从前端页面中获取待采集数据,采用故障转移的方式将前端页面中的待采集数据加载至日志采集系统的数据采集层,将数据采集层中的数据存入缓存队列;将缓存队列的数据加载至日志采集系统的分发层,基于预构建的容错机制将分发层的数据存储至消息中间件中。本发明专利技术可以实现数据采集的零丢失,保障数据采集的完整性。据采集的完整性。据采集的完整性。

【技术实现步骤摘要】
数据采集方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种数据采集方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着大数据的日益发展,数据采集成为一个必不可少的流程,目前大数据的数据采集通常是基于nginx+flume+kafka等组件实现,其中,nginx组件用于接收用户行为日志反向代理写入磁盘里去,flume组件直接从磁盘目录里读取Nginx组件不断写入的日志,以写入kafka组件中,但是在nginx到数据采集层flume,及flume到kafka存储层容易存在数据丢失的情况,从而导致数据采集的不够完整。

技术实现思路

[0003]本专利技术提供一种数据采集方法、装置、电子设备及计算机可读存储介质,其主要目的在于实现数据采集的零丢失,保障数据采集的完整性。
[0004]为实现上述目的,本专利技术提供的一种数据采集方法,包括:
[0005]识别数据采集需求的数据类别,所述数据类别包括行为数据和业务数据;
[0006]在所述数据类别为业务数据时,从业务数据库中获取待采集数据,并采用主备复制的方式将所述业务数据库中的待采集数据加载至数据同步组件中,基于预构建的容错机制将所述数据同步组件中的数据存储至消息中间件中;
[0007]在所述数据类别为行为数据时,从前端页面中获取待采集数据,采用故障转移的方式将所述前端页面中的待采集数据加载至日志采集系统的数据采集层中,并将所述数据采集层中的数据存入缓存队列中;
[0008]将所述缓存队列中的数据加载至所述日志采集系统的分发层中,并基于所述预构建的容错机制将所述分发层中的数据存储至所述消息中间件中。
[0009]可选地,所述采用主备复制的方式将所述业务数据库中待采集数据加载至数据同步组件中,包括:
[0010]配置所述数据同步组件的主采集节点和备采集节点;
[0011]利用所述主采集节点向所述业务数据库中采集所述待采集数据,实时监控所述主采集节点向所述业务数据库进行数据采集是否出现异常;
[0012]若所述主采集节点未出现异常,继续所述待采集数据的采集,并将采集的数据传输至所述数据同步组件中;
[0013]若所述主采集节点出现异常,切换所述备采集节点采集所述待采集数据,并将采集的数据传输至所述数据同步组件中。
[0014]可选的,所述利用所述主采集节点向所述业务数据库中采集所述待采集数据,包括:
[0015]在所述业务数据库配置所述主采集节点的日志文件,基于所述日志文件从所述业
务数据库中读取所述待采集数据。
[0016]可选地,所述基于预构建的容错机制将所述数据同步组件中的数据存储至消息中间件中,包括:
[0017]实时监控所述数据同步组件的数据在存储过程中所述消息中间件是否出现异常;
[0018]若所述消息中间件出现异常,则将所述数据同步组件的数据暂存至本地磁盘中,直至所述消息中间件恢复异常后将所述本地磁盘的数据上传至所述消息中间件中;
[0019]若所述消息中间件未出现异常,则继续执行所述数据同步组件中的数据存储。
[0020]可选地,所述采用故障转移的方式将所述前端页面中的待采集数据加载至日志采集系统的数据采集层中,包括:
[0021]采用反向代理的方式将所述前端页面中的待采集数据分发至预先部署多台日志采集系统的数据采集层中;
[0022]识别所述前端页面中的待采集数据在分发过程中所述日志采集系统是否出现宕机,并存在所述日志采集系统出现宕机时,将所述前端页面中的待采集数据转发至未出现宕机的日志采集系统的数据采集层中。
[0023]可选地,所述采用反向代理的方式将所述前端页面中的待采集数据分发至预先部署多台日志采集系统的数据采集层中,包括:
[0024]响应于所述前端页面中待采集数据的分发请求,采用负载均衡的方式将所述分发请求转发至所述预先部署多台日志采集系统的数据采集层中。
[0025]可选地,所述将所述缓存队列中的数据加载至所述日志采集系统的分发层中,包括:
[0026]响应于所述日志采集系统中分发层的数据采集需求,从所述缓存队列中拉取所述数据采集需求的目标数据;
[0027]采用故障转移的方式将所述目标数据加载在所述日志采集系统的分发层中。
[0028]为了解决上述问题,本专利技术还提供一种数据采集装置,所述装置包括:
[0029]数据类别识别模块,用于识别数据采集需求的数据类别,所述数据类别包括行为数据和业务数据;
[0030]数据主备采集模块,用于在所述数据类别为业务数据时,从业务数据库中获取待采集数据,并采用主备复制的方式将所述业务数据库中的待采集数据加载至数据同步组件中,基于预构建的容错机制将所述数据同步组件中的数据存储至消息中间件中;
[0031]数据缓存模块,用于在所述数据类别为行为数据时,从前端页面中获取待采集数据,采用故障转移的方式将所述前端页面中的待采集数据加载至日志采集系统的数据采集层中,并将所述数据采集层中的数据存入缓存队列中;
[0032]数据分发采集模块,用于将所述缓存队列中的数据加载至所述日志采集系统的分发层中,并基于所述预构建的容错机制将所述分发层中的数据存储至所述消息中间件中。
[0033]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0034]至少一个处理器;以及,
[0035]与所述至少一个处理器通信连接的存储器;其中,
[0036]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的数据采集方法。
[0037]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据采集方法。
[0038]可以看出,本专利技术实施例通过识别待采集数据的数据类别,可以选取不同的数据采集方式执行数据采集,保障数据采集的可靠性,其次,本专利技术实施例在所述数据类别为业务数据时,通过主备复制方式,避免数据同步组件在向业务数据库进行数据采集时出现宕机的现象,并结合容错机制保障数据同步组件中的待采集数据向消息中间件进行存储时所述消息中间件出现宕机时的数据丢失,保障了向业务数据库进行数据采集的零丢失,保障了数据采集的完整性;进一步地,本专利技术实施例在所述数据类别为行为数据时,采用故障转移+缓存队列+容错机制,确保了通过日志采集系统向前端页面中进行数据采集时,及所述日志采集系统向消息中间件传输前端页面中的待采集数据时的数据零丢失,保障了数据采集的完整性。因此,本专利技术实施例提出的一种数据采集方法、装置、电子设备及计算机可读存储介质可以实现数据采集的零丢失,保障数据采集的完整性。
附图说明
[0039]图1为本专利技术一实施例提供的数据采集方法的流程示意图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:识别数据采集需求的数据类别,所述数据类别包括行为数据和业务数据;在所述数据类别为业务数据时,从业务数据库中获取待采集数据,并采用主备复制的方式将所述业务数据库中的待采集数据加载至数据同步组件中,基于预构建的容错机制将所述数据同步组件中的数据存储至消息中间件中;在所述数据类别为行为数据时,从前端页面中获取待采集数据,采用故障转移的方式将所述前端页面中的待采集数据加载至日志采集系统的数据采集层中,并将所述数据采集层中的数据存入缓存队列中;将所述缓存队列中的数据加载至所述日志采集系统的分发层中,并基于所述预构建的容错机制将所述分发层中的数据存储至所述消息中间件中。2.如权利要求1所述的数据采集方法,其特征在于,所述采用主备复制的方式将所述业务数据库中待采集数据加载至数据同步组件中,包括:配置所述数据同步组件的主采集节点和备采集节点;利用所述主采集节点向所述业务数据库中采集所述待采集数据,实时监控所述主采集节点向所述业务数据库进行数据采集是否出现异常;若所述主采集节点未出现异常,继续所述待采集数据的采集,并将采集的数据传输至所述数据同步组件中;若所述主采集节点出现异常,切换所述备采集节点采集所述待采集数据,并将采集的数据传输至所述数据同步组件中。3.如权利要求2所述的数据采集方法,其特征在于,所述利用所述主采集节点向所述业务数据库中采集所述待采集数据,包括:在所述业务数据库配置所述主采集节点的日志文件,基于所述日志文件从所述业务数据库中读取所述待采集数据。4.如权利要求1所述的数据采集方法,其特征在于,所述基于预构建的容错机制将所述数据同步组件中的数据存储至消息中间件中,包括:实时监控所述数据同步组件的数据在存储过程中所述消息中间件是否出现异常;若所述消息中间件出现异常,则将所述数据同步组件的数据暂存至本地磁盘中,直至所述消息中间件恢复异常后将所述本地磁盘的数据上传至所述消息中间件中;若所述消息中间件未出现异常,则继续执行所述数据同步组件中的数据存储。5.如权利要求1所述的数据采集方法,其特征在于,所述采用故障转移的方式将所述前端页面中的待采集数据加载至日志采集系统的数据采集层中,包括:采用反向代理的方式将所述前端页面中的待采集数据分发至预...

【专利技术属性】
技术研发人员:李志敏
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1