一种自适应的数据采集方法及系统技术方案

技术编号:21453906 阅读:40 留言:0更新日期:2019-06-26 04:46
本发明专利技术实施例公开了一种自适应的数据采集方法及系统,方法包括:对数据进行采集,将采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在,获取单个未处理的任务进行处理,若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过,则将处理失败的任务添加至缓存队列的队尾;若超过,则下发预警通知。本发明专利技术提供一套高效便捷且智能化程度高的数据采集方法,完全不需要人工干预,提升系统服务效率以及运维的效率,降低人工成本。

【技术实现步骤摘要】
一种自适应的数据采集方法及系统
本专利技术涉及通信
,尤其涉及一种自适应的数据采集方法及系统。
技术介绍
数据采集工作是事前风险预警的关键,无论是处理突发事件,还是对历史数据进行分析、总结规律,都必须建立在真实、准确的数据之上。因此,数据采集工作尤为重要,对数据采集方法策略的便捷性、稳定性、智能化程度要求越来越高。但是,现有的数据采集方法存在以下缺陷:(1)采集能力不能自适应。采集服务不能根据当前机器的实际的处理能力动态调整,缓解系统负载能力以及处理能力;(2)任务积压不能自缓解。数据任务处理能力下降时,采集服务缺少自动调节能力,导致任务积压越来越严重,最终导致内存溢出、系统崩溃;(3)缺少容错恢复能力。由于某个业务处理逻辑错误或者网络故障等其它原因,会导致业务数据丢失以及整个采集程序不可用,影响服务正常运行工作;(4)缺少数据分级机制。数据处理过程中,由于某个业务处理逻辑错误或者网络故障等其它原因导致数据处理失败,无重新处理或者放弃处理的数据分级机制。(5)缺少容灾恢复能力。由于断电、硬件故障等外部原因,会导致数据处理状态丢失、数据丢失的情况;(6)缺少报警机制。任务处理失败或者其他问题,缺少预警通知机制。因此现有技术还有待于进一步发展。
技术实现思路
针对上述技术问题,本专利技术实施例提供了一种自适应的数据采集方法及系统,能够解决现有技术中数据采集服务不能根据当前机器的实际处理能力动态调整,系统负载大,处理速度慢的技术问题。本专利技术实施例的第一方面提供一种自适应的数据采集方法,包括:预先对任务处理参数进行配置;对数据进行采集,将批量采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。可选地,所述预先对任务处理参数进行配置,包括:预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;预先对原始单位任务平均处理时间进行配置;预先对原始单位任务平均处理时间容忍时间差进行配置;预先对调整比率进行配置。可选地,所述对数据进行采集时,将批量采集到的数据添加到数据缓存队列前,还包括:检测到采集数据时间到,则判断缓存队列是否为空;若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。可选地,所述若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾,若超过重试次数阈值,则下发预警通知,包括:若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;判断处理失败次数是否达到重试次数阈值,若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。可选地,所述根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理后,还包括:若检测到系统重启后,获取数据采集状态为处理中或异常的数据,进行采集并重新处理。本专利技术实施例第二方面提供了一种自适应的数据采集系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:预先对任务处理参数进行配置;对数据进行采集,将批量采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。可选地,所述计算机程序被所述处理器执行时还实现以下步骤:预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;预先对原始单位任务平均处理时间进行配置;预先对原始单位任务平均处理时间容忍时间差进行配置;预先对调整比率进行配置。可选地,所述计算机程序被所述处理器执行时还实现以下步骤:检测到采集数据时间到,则判断缓存队列是否为空;若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。可选地,所述计算机程序被所述处理器执行时还实现以下步骤:若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;判断处理失败次数是否达到重试次数阈值,若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。本专利技术实施例第三方面提供了一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的自适应的数据采集方法。本专利技术实施例提供的技术方案中,对数据进行采集,将采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在,获取单个未处理的任务进行处理,若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过,则将处理失败的任务添加至缓存队列的队尾;若超过,则下发预警通知。因此相对于现有技术,本专利技术实施例可为数据采集提供一套高效的、便捷的、稳定的、智能化程度高的数据采集策略。数据采集应用完全不需要人工干预,提升系统服务效率以及运维的效率,降低人工成本。附图说明图1为本专利技术实施例中一种自适应的数据采集方法的一实施例的流程示意图;图2为本专利技术实施例中一种自适应的数据采集系统的另一实施例的硬件结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属本文档来自技高网...

【技术保护点】
1.一种自适应的数据采集方法,其特征在于,包括:预先对任务处理参数进行配置;对数据进行采集,将批量采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。

【技术特征摘要】
1.一种自适应的数据采集方法,其特征在于,包括:预先对任务处理参数进行配置;对数据进行采集,将批量采集到的数据添加到数据缓存队列;对数据缓存队列中的任务进行批次处理,评估平均处理时间,若平均处理时间到达阈值,则对预先设置的任务处理参数进行调整,获取调整后的任务处理参数;根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理,将正在处理的任务的数据状态记为处理中;若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾;若超过重试次数阈值,则下发预警通知。2.根据权利要求1所述的自适应的数据采集方法,其特征在于,所述预先对任务处理参数进行配置,包括:预先对原始采集能力参数进行配置,所述原始能力参数用于评估一次批量采集的数据的数量;预先对原始单位任务平均处理时间进行配置;预先对原始单位任务平均处理时间容忍时间差进行配置;预先对调整比率进行配置。3.根据权利要求1所述的自适应的数据采集方法,其特征在于,所述对数据进行采集时,将批量采集到的数据添加到数据缓存队列前,还包括:检测到采集数据时间到,则判断缓存队列是否为空;若为空,则对数据进行采集,将批量采集到的数据添加到数据缓存队列。4.根据权利要求1所述的自适应的数据采集方法,其特征在于,所述若单个未处理的任务处理失败,则判断处理失败次数是否超过重试次数阈值;若未超过重试次数阈值,则将处理失败的任务添加至缓存队列的队尾,若超过重试次数阈值,则下发预警通知,包括:若单个未处理的任务的任务处理失败,则获取任务处理失败的原因;若任务失败的原因为网络异常导致,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数;判断处理失败次数是否达到重试次数阈值,若是,则将处理失败的任务清理出队列,将数据采集状态标记为异常,并下发预警通知,若检测到任务失败的原因为系统不能自动解决的错误,则将数据标记为人工处理,并将数据采集状态标记为错误;若否,则将处理失败的任务添加至缓存队列的队尾,并标记失败重试次数。5.根据权利要求4所述的自适应的数据采集方法,其特征在于,所述根据调整后的任务处理参数对任务进行批次处理;判断是否存在未处理的任务,若存在未处理的任务,获取单个未处理的任务进行处理后,还包括:若检测到系统重启后,获取数据采集状态为处理中或异...

【专利技术属性】
技术研发人员:张成何雪峰
申请(专利权)人:深圳达普信科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1