大数据采集方法、装置以及系统制造方法及图纸

技术编号:15624421 阅读:118 留言:0更新日期:2017-06-14 05:57
本发明专利技术公开一种大数据采集方法、装置以及系统,涉及移动通信领域,其中该方法包括:接收待上传数据的采集客户端发送的连接请求;根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间;将所述延时连接时间返回给采集客户端,以便所述采集客户端经过所述延时连接时间后向采集服务器上传数据。本发明专利技术提供的方法、装置以及系统,在一定程度上解决了网络数据采集过程中出现的瞬时数据量过大的情况,在负载均衡技术的基础上,引入了时间参数,并通过元启发式算法较好的协调了两个维度的关系,使流量较为均衡地分布在各个时间段,最大限度地利用了现有资源。

【技术实现步骤摘要】
大数据采集方法、装置以及系统
本专利技术涉及移动通信领域,尤其涉及一种大数据采集方法、装置以及系统。
技术介绍
为捕捉用户的使用行为信息,进行有效分析,用准确量化的数据作为产品创新及优化,中国电信开发了基地业务量化分析系统,该系统基于客户端外挂程序的方式来进行用户数据采集,由于目前该系统的采集样本量已经突破1亿,每日上报数据超过30G,即使已经采用了软硬件负载均衡技术,但是依然会出现在一些时间负载很低,但在另一些瞬间会出现网络堵塞的情况。因此,有必要提出一种在大数据采集的时候可自行调整参数的大数据采集装置和实现方法。
技术实现思路
本公开要解决的一个技术问题是如何提供一种可自行调整参数的大数据采集装置和实现方法。本公开提供一种大数据采集方法,包括:接收待上传数据的采集客户端发送的连接请求;根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间;将所述延时连接时间返回给采集客户端,以便所述采集客户端经过所述延时连接时间后向采集服务器上传数据。进一步地,所述采集服务器的当前网络情况包括网络流量负载情况和带宽情况。进一步地,所述根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间包括:随机初始化时间T0;根据当前的网络流量负载的分布,选择时间Tt;比较采用当前时间T0的流量峰值与平均值之差、时间Tt时的流量峰值与平均值之差;如果流量峰值与平均值之差不小于当前时间T0时的情况,则计算更新时间,其中,更新时间的计算公式为Snew=Scur+sqrt(Tt)*randn,其中所述Scur为当前请求上传时间,Snew为更新上传时间,randn为高斯随机数;将所述更新时间作为延时连接时间发送给采集客户端。进一步地,如果采用时间Tt时,流量峰值与平均值之差小于时间T0时的流量峰值与平均值之差,则将Tt更新T0,并重新根据当前的网络流量负载的分布,选择一个新的时间Tt。进一步地,判断当前循环次数,如果当前循环次数不大于第一设定阈值时,如果采用时间Tt时流量峰值与平均值之差没有小于时间T0时的流量峰值与平均值之差的情况,计算接受概率P,其中P=1/(1+exp(Δ+Tt)),其中Δ为当前时间T0、时间Tt时流量峰值与平均值之差的差值;如果所述接受概率不小于第二设定阈值,计算更新时间并将所述更新时间作为延时连接时间发送给采集客户端。进一步地,如果当前循环次数大于第一设定阈值且未得到接受概率小于第二设定阈值的时间,则退出当前的循环计算延时连接时间的过程并确定未得到延时连接时间;向采集客户端返回数据上传响应以便所述采集客户端向服务器上传数据。本专利技术还提供一种大数据采集装置,包括:接收模块,用于接收待上传数据的采集客户端发送的连接请求;时间调整模块,用于根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间;发送模块,用于将所述延时连接时间返回给采集客户端以便采集样本客户端经过所述延时连接时间后向服务器发送连接请求上传数据。进一步地,所述采集服务器的当前网络情况包括网络流量负载情况和带宽情况。进一步地,所述时间调整模块包括:初始化单元,用于随机初始化时间T0;选择单元,用于根据当前的网络流量负载的分布,选择时间Tt;比较单元,用于比较采用当前时间T0的流量峰值与平均值之差、时间Tt时的流量峰值与平均值之差;处理单元,如果流量峰值与平均值之差不小于当前时间T0时的情况,则计算更新时间;发送单元,用于将所述更新时间作为延时连接时间发送给采集客户端,其中更新时间的计算公式为Snew=Scur+sqrt(Tt)*randn,其中所述Scur为当前请求上传时间,Snew为更新上传时间,randn为高斯随机数。进一步地,所述处理单元还用于如果采用时间Tt时流量峰值与平均值之差小于时间T0时的流量峰值与平均值之差,则将Tt更新T0,并重新根据当前的网络流量负载的分布,选择一个新的时间Tt。进一步地,处理单元还用于判断当前循环次数,如果当前循环次数不大于第一设定阈值时,如果采用时间Tt时流量峰值与平均值之差没有小于时间T0时的流量峰值与平均值之差的情况,计算接受概率P,其中P=1/(1+exp(Δ+Tt)),其中Δ为当前时间T0、时间T1时流量峰值与平均值之差的差值;如果所述接受概率不小于第二设定阈值,计算更新时间并将所述更新时间作为延时连接时间发送给采集客户端。进一步地,处理单元还用于如果当前循环次数大于第一设定阈值且未得到接受概率小于第二设定阈值的时间,则退出当前的循环计算延时连接时间的过程并确定未得到延时连接时间;发送模块还用于向采集客户端返回数据上传响应以便所述采集客户端向服务器上传数据。本一种大数据采集系统,其特征在于,包括:如上述的大数据采集装置以及采集客户端、采集服务器。本公开提供的大数据采集方法、装置以系统,在一定程度上解决了网络数据采集过程中出现的瞬时数据量过大的情况,在负载均衡技术的基础上,引入了时间参数,并通过元启发式算法较好的协调了两个维度的关系,使流量较为均衡地分布在各个时间段,最大限度地利用了现有资源。附图说明图1示出本专利技术一个实施例的大数据采集方法的流程图。图2示出本专利技术一个实施例的一种大数据采集系统的示意图。图3示出本专利技术一个实施例的一种大数据采集装置。图4示出了本专利技术的另一个实施例的一种大数据采集装置的结构框图。具体实施方式下面参照附图对本专利技术进行更全面的描述,其中说明本专利技术的示例性实施例。图1示出本专利技术一个实施例的大数据采集方法的流程图。如图1所示,该方法主要包括:步骤100,接收待上传数据的采集客户端发送的连接请求。步骤102,根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间。步骤104,将所述延时连接时间返回给采集客户端,以便所述采集客户端经过所述延时连接时间后向采集服务器上传数据。在一个实施例中,所述采集服务器的当前网络情况包括网络流量负载情况和带宽情况。在一个实施例中,所述根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间包括:随机初始化时间T0;根据当前的网络流量负载的分布,选择时间Tt;比较采用当前时间T0的流量峰值与平均值之差、时间Tt时的流量峰值与平均值之差;如果流量峰值与平均值之差不小于当前时间T0时的情况,则计算更新时间,其中,更新时间的计算公式为Snew=Scur+sqrt(Tt)*randn,其中所述Scur为当前请求上传时间,Snew为更新上传时间,randn为高斯随机数;将所述更新时间作为延时连接时间发送给采集客户端。在一个实施例中,如果采用时间Tt时,流量峰值与平均值之差小于时间T0时的流量峰值与平均值之差,则将Tt更新T0,并重新根据当前的网络流量负载的分布,选择一个新的时间Tt。在一个实施例中,判断当前循环次数,如果当前循环次数不大于第一设定阈值时,如果采用时间Tt时流量峰值与平均值之差没有小于时间T0时的流量峰值与平均值之差的情况,计算接受概率P,其中P=1/(1+exp(Δ+Tt)),其中Δ为当前时间T0、时间T1时流量峰值与平均值之差的差值;如果所述接受概率不小于第二设定阈值,计算更新时间并将所述更新时间作为延时连接时间发送给采集客本文档来自技高网...
大数据采集方法、装置以及系统

【技术保护点】
一种大数据采集方法,其特征在于,包括:接收待上传数据的采集客户端发送的连接请求;根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间;将所述延时连接时间返回给采集客户端,以便所述采集客户端经过所述延时连接时间后向采集服务器上传数据。

【技术特征摘要】
1.一种大数据采集方法,其特征在于,包括:接收待上传数据的采集客户端发送的连接请求;根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间;将所述延时连接时间返回给采集客户端,以便所述采集客户端经过所述延时连接时间后向采集服务器上传数据。2.根据权利要求1所述的方法,其特征在于,所述采集服务器的当前网络情况包括网络流量负载情况和带宽情况。3.根据权利要求1或2所述的方法,其特征在于,所述根据采集服务器的当前网络情况基于启发式算法计算所述采集客户端的延时连接时间包括:随机初始化时间T0;根据当前的网络流量负载的分布,选择时间Tt;比较采用当前时间T0的流量峰值与平均值之差、时间Tt时的流量峰值与平均值之差;如果流量峰值与平均值之差不小于当前时间T0时的情况,则计算更新时间,其中,更新时间的计算公式为Snew=Scur+sqrt(Tt)*randn,其中所述Scur为当前请求上传时间,Snew为更新上传时间,randn为高斯随机数;将所述更新时间作为延时连接时间发送给采集客户端。4.根据权利要求3所述的方法,其特征在于,还包括:如果采用时间Tt时,流量峰值与平均值之差小于时间T0时的流量峰值与平均值之差,则将Tt更新T0,并重新根据当前的网络流量负载的分布,选择一个新的时间Tt。5.根据权利要求3所述的方法,其特征在于,还包括:判断当前循环次数,如果当前循环次数不大于第一设定阈值时,如果采用时间Tt时流量峰值与平均值之差没有小于时间T0时的流量峰值与平均值之差的情况,计算接受概率P,其中P=1/(1+exp(Δ+Tt)),其中Δ为当前时间T0、时间T1时流量峰值与平均值之差的差值;如果所述接受概率不小于第二设定阈值,计算更新时间并将所述更新时间作为延时连接时间发送给采集客户端。6.根据权利要求5所述的方法,其特征在于,如果当前循环次数大于第一设定阈值且未得到接受概率小于第二设定阈值的时间,则退出当前的循环计算延时连接时间的过程并确定未得到延时连接时间;向采集客户端返回数据上传响应以便所述采集客户端向服务器上传数据。7.一种大数据采集装置,其特征在于,包括:接收模块,用于接收待上传数据的采集客户端发送的连接请求;时间调整模块...

【专利技术属性】
技术研发人员:赵勇
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1