一种基于实时数据流的数据采样方法、装置及电子设备制造方法及图纸

技术编号:18458429 阅读:21 留言:0更新日期:2018-07-18 12:33
本发明专利技术实施例提供了一种基于实时数据流的数据采样方法、装置及电子设备。方法包括:在预设采样周期到达时,获取最近预设采样周期内所接收到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。可以将最近预设采样周期内所接收到的待采样数据的数据量,作为当前预设采样周期将要接收到的待采样数据量的参考,来确定当前预设采样周期的采样比例,使得每个采样周期采集到的样本数据维持在期望采集到的样本数据量的附近,即实现了单位时间内采样得到的数据的数据量相对稳定。

Data sampling method, device and electronic device based on real-time data stream

The embodiment of the invention provides a data sampling method, device and electronic device based on real-time data stream. The method includes: when the preset sampling period arrives, the amount of data received in the latest preset sampling period is obtained, and the amount of the data to be sampled is used as the reference amount; the ratio of the predetermined amount of expected sampling data to the reference data is determined, and the ratio is taken as a sampling ratio. According to the sampling ratio, the sampled data to be sampled in the preset sampling period are sampled. The amount of data to be received in the recent preset sampling period can be used as a reference for the amount of data to be received by the current preset sampling period to determine the proportion of the current sampling period, so that the number of samples collected in each sampling period is maintained on the sample data expected to be collected. The amount of data obtained in the unit time is relatively stable.

【技术实现步骤摘要】
一种基于实时数据流的数据采样方法、装置及电子设备
本专利技术涉及大数据分析
,特别是涉及一种基于实时数据流的数据采样方法、装置及电子设备。
技术介绍
在面对数量庞大的待处理数据的时候,如果对这些数据全部进行处理,将会带来很大的资源开销。现有技术中,为了降低这种资源开销,可以对待处理数据,按照一个预设的采样比例进行采样,得到其中一部分数据,并只对这一部分数据进行处理。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:对于流量随时间可能发生变化的数据流,如果按照固定的采样比例进行采样,那么单位时间内采样得到的数据的数据量,会随着时间变化产生波动,可能与期望采样得到的数据量相差较远。
技术实现思路
本专利技术实施例的目的在于提供一种基于渐变数据流的采样方法,以减小采样得到的数据的数据量随时间的波动。具体技术方案如下:在本专利技术实施例的第一方面,提供了一种基于实时数据流的数据采样方法,所述方法包括:在预设采样周期到达时,获取最近预设采样周期内所接受到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。进一步的,所述按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样,包括:在当前预设采样周期内每接收到一条数据,生成一个取值范围为0到1的伪随机数;如果所述伪随机数小于所述采样比例,采集该条数据。进一步的,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定预设的期望采样数据量与所述参考数据量之间的大小关系;如果所述期望采集数据量小于所述参考数据量,执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;或者,如果所述期望采集数据量不小于所述参考数据量,采集当前预设采样周期内所接收到的所有待采样数据。进一步的,所述获取最近预设采样周期内所接收到的待采样数据的数据量,包括:获取最近预设采样周期内所接收到的数据中不符合预设特征的数据的数据量,并将所述不符合预设特征的数据的数据量作为最近预设采样周期内所接收到的待采样数据的数据量。进一步的,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定所述参考数据量是否为0;如果所述参考数据量不为0,则执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;或者,如果所述参考数据量为0,按照预设采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。在本专利技术实施例的第二方面,提供了一种基于实时数据流的数据采样装置,所述装置包括:预估模块,用于在预设采样周期到达时,获取最近预设采样周内所接收到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;比例确定模块,用于确定预设的期望采样数据量与所述参考数据量的比值,并将所述比例作为采样比例;采样模块,用于按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。进一步的,所述采样模块,具体用于在当前预设采样周期内每接收到一条数据,生成一个取值范围为0到1的伪随机数;并且如果所述为随机数小于所述采样比例,采集该条数据。进一步的,所述比例确定模块还用于确定预设的期望采样数据量与所述参考数据量之间的大小关系;并且如果所述期望采集数据量小于所述参考数据量,执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;所述采样模块,还用于如果所述期望采集数据量不小于所述参考数据量,采集当前预设采样周期内所接收到的所有待采样数据。进一步的,所述预估模块,具体用于获取最近预设采样周期内所接收到的数据中不符合预设特征的数据的数据量,并将所述不符合预设特征的数据的数据量作为最近预设采用周期内所接收到的待采样数据的数据量。进一步的,所述比例确定模块还用于确定所述参考数据量是否为0;并且如果所述参考数据量不为0,执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤。所述采样模块,还用于如果所述参考数据量为0,按照预设采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。在本专利技术实施例的第三方面,提供了一种基于实时数据流的数据采样电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的基于实时数据流的数据采样方法步骤。在本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的基于实时数据流的数据采样方法。在本专利技术实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的基于实时数据流的数据采样方法。本专利技术实施例提供的基于实时数据流的数据采样方法、装置及电子设备,将期望采集到的数据量与最近预设采样周期内接收到的待采样数据的数据量的比值作为下一个预设采样周期内的采样比例,对于流量渐变的数据流,当预设采样周期足够短时,可以近似认为最近预设采样周期内的接收到的待采样数据的数据量等于当前预设采样周期内将要接收到待采样数据的数据量。因此使用该采样比例对当前预设采样周期内将要接收到的数据进行采样,可以使得在当前预设采样周期内采集到近似于期望采集到的数据量的数据,即单位时间内采样得到的数据的数据量相对稳定。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1a为本专利技术实施例提供的基于实时数据流的数据采样方法的一种流程示意图;图1b为本专利技术实施例提供的基于实时数据流的数据采样方法的另一种流程示意图;图1c为本专利技术实施例提供的基于实时数据流的数据采样方法的另一种流程示意图;图2为本专利技术实施例提供的基于实时数据流的数据采样方法的另一种流程示意图;图3为本专利技术实施例提供的基于实时数据流的数据采样方法的另一种流程示意图;图4为本专利技术实施例提供的基于实时数据流的数据采样方法的另一种流程示意图;图5为本专利技术实施例提供的基于实时数据流的数据采样装置的一种结构示意图;图6为本专利技术实施例提供的基于实时数据流的数据采样电子设备的一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。参见图1a,图1a所示为本专利技术实施例提供的基于实时数据流的数据采样方法的一种流程示意图,可以包括以下步骤:S110,在预设采样周期到达时,获取最近预设采样周期内所接收到的待采样数据的数据量,并将待采样数据的数据量作为参考数据量。其中,预设采样周期到达时,是指从一个特定的时刻起,经过整数个预设采样周期的时间。在本实施例中,该指定的时刻可以是开始接收到待采样数据的时刻。示例性的,记开始接收到数据的时刻为t=0s,预设采样周期为30s,则在t=30s、t=60s、t=90s时都可以视作预设采样周期到达时。最近预设采样周期是指,从预设采样周期到达时算起,往前的一个预设采样周期的时间范围,例如,在t=30s时,最近本文档来自技高网...

【技术保护点】
1.一种基于实时数据流的数据采样方法,其特征在于,所述方法包括:在预设采样周期到达时,获取最近预设采样周期内所接收到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。

【技术特征摘要】
1.一种基于实时数据流的数据采样方法,其特征在于,所述方法包括:在预设采样周期到达时,获取最近预设采样周期内所接收到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。2.根据权利要求1所述的方法,其特征在于,所述按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样,包括:在当前预设采样周期内每接收到一条数据,生成一个取值范围为0到1的伪随机数;如果所述伪随机数小于所述采样比例,采集该条数据。3.根据权利要求1所述的方法,其特征在于,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定预设的期望采样数据量与所述参考数据量之间的大小关系;如果所述期望采集数据量小于所述参考数据量,执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;或者,如果所述期望采集数据量不小于所述参考数据量,采集当前预设采样周期内所接收到的所有待采样数据。4.根据权利要求1所述的方法,其特征在于,所述获取最近预设采样周期内所接收到的待采样数据的数据量,包括:获取最近预设采样周期内所接收到的数据中不符合预设特征的数据的数据量,并将所述不符合预设特征的数据的数据量作为最近预设采样周期内所接收到的待采样数据的数据量。5.根据权利要求1所述的方法,其特征在于,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定所述参考数据量是否为0;如果所述参考数据量不为0,则执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;或者,如果所述参考数据量为0,按照预设采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。6.一种基于实时数据流的数据采样装置,其特征在于,所述装置包括:预估...

【专利技术属性】
技术研发人员:郑培凝
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1