一种轻量级的大数据智能采集方法技术

技术编号:19691396 阅读:51 留言:0更新日期:2018-12-08 11:04
一种轻量级的大数据智能采集方法,属于提升数据采集性能技术领域,本发明专利技术引入动态可调整的“批量+超时”传输策略,通过将采集的数据批次进行传输,该批次策略通过条数和时间两个维度进行控制,保证了超大规模下采集客户端与缓冲队列之间不会过于频繁的建立连接通道,保证了数据不会丢失,同时减轻被采集侧生产系统压力;并且上述的条数和时间两个维度的值会受到外部调度模块的定期调整,保证到达缓冲队列的请求分布均匀,整体提高系统稳定性。

【技术实现步骤摘要】
一种轻量级的大数据智能采集方法
本专利技术属于提升数据采集性能
,特别是涉及到一种轻量级的大数据智能采集方法。
技术介绍
针对大数据情况下的数据采集,源于不同技术和架构的采集方法之间的差异,会引起采集系统稳定性或占用资源量的巨大差异,所以选择一种好的采集方法十分重要。目前,对大数据情况下的数据采集方法主要为以下两种:(1)采集客户端→存储器在每个数据源安装采集客户端,采集客户端将需要采集的数据收集起来,传递给存储器。(2)采集客户端→缓冲队列→存储器在(1)技术的基础上,在采集客户端和存储器之间添加了“缓冲队列”模块。现有技术(1)中,采集客户端将数据采集完成之后,直接发送给存储器,那么当数据规模较大的情况下,可能存储器并不能完全有能力承载采集客户端的存储请求,会发生请求消息阻塞,此时就会造成采集客户端发生错误,造成数据丢失,故技术(1)存在在大规模数据下,系统无缓冲功能带来的传输阻塞和数据丢失的缺陷;针对现有技术(1)的基础上,引入了缓冲队列的概念,该模块实现了采集客户端和存储器之间的管道性的缓冲连接,即使存储器无法实时消费采集客户端传到的数据,那么后续数据也会被暂存在缓存队本文档来自技高网...

【技术保护点】
1.一种轻量级的大数据智能采集方法,其特征是:包括以下步骤,步骤一、建立数据存储的前置模块,内部包括批次控制器和修正控制器;建立数据存储的调度模块,包括刷新定时器和参数调节器,其中参数调节器包括Pool_size调节器和timeout调节器;步骤二、设置前置模块的配制池大小Pool_size初始值以及延迟时间timeout初始值,前置模块收集本地数据,直至数据量达到Pool_size初始值,建立与缓冲队列的通道,将数据传输到存储器;或达到timeout初始值,建立与缓冲队列的通道,将数据传输到存储器;步骤三、调度模块实时监控各个采集客户端与缓冲队列之间的通信情况,收集一个周期内的关键通信指标,...

【技术特征摘要】
1.一种轻量级的大数据智能采集方法,其特征是:包括以下步骤,步骤一、建立数据存储的前置模块,内部包括批次控制器和修正控制器;建立数据存储的调度模块,包括刷新定时器和参数调节器,其中参数调节器包括Pool_size调节器和timeout调节器;步骤二、设置前置模块的配制池大小Pool_size初始值以及延迟时间timeout初始值,前置模块收集本地数据,直至数据量达到Pool_size初始值,建立与缓冲队列的通道,将数据传输到存储器;或达到timeout初始值,建立与缓冲队列的通道,将数据传输到存储器;步骤三、调度模块实时监控各个采集客户端与缓冲队列之间的通信情况,收集一个周期内的关键通信指标,包括每个客户端每次与缓冲队列传输的数据条数patch_size以及每次传输到达缓冲队列的时间reach_time;步骤四、将每一个周期内每次请求的patch_size和reach_time数值分别传递给Pool_size调节器和timeout调节器;步骤五、Pool_size调节器将一个周期每次请求的patch_size进行平均值计算,将平均值patch_size_ave传输给刷新定时器,等待更新;步骤六、Timeout调节器将一个周期每次请求的reach_time数值与上一次的reach_time数值做差值运算,并将全部的差值取平均值获得差值平均值timeout_ave,传输给刷新定时器,等待更新;步骤七、将步骤六中获得的每个采集客户端的差值平均值timeout_ave再次取...

【专利技术属性】
技术研发人员:于富东匙凯杨林
申请(专利权)人:吉林吉大通信设计院股份有限公司
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1