The embodiment of the invention provides a data sampling method, device and electronic device based on real-time data stream. The method includes: when the preset sampling period arrives, the amount of data received in the latest preset sampling period is obtained, and the amount of the data to be sampled is used as the reference amount; the ratio of the predetermined amount of expected sampling data to the reference data is determined, and the ratio is taken as a sampling ratio. According to the sampling ratio, the sampled data to be sampled in the preset sampling period are sampled. The amount of data to be received in the recent preset sampling period can be used as a reference for the amount of data to be received by the current preset sampling period to determine the proportion of the current sampling period, so that the number of samples collected in each sampling period is maintained on the sample data expected to be collected. The amount of data obtained in the unit time is relatively stable.
【技术实现步骤摘要】
一种基于实时数据流的数据采样方法、装置及电子设备
本专利技术涉及大数据分析
,特别是涉及一种基于实时数据流的数据采样方法、装置及电子设备。
技术介绍
在面对数量庞大的待处理数据的时候,如果对这些数据全部进行处理,将会带来很大的资源开销。现有技术中,为了降低这种资源开销,可以对待处理数据,按照一个预设的采样比例进行采样,得到其中一部分数据,并只对这一部分数据进行处理。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:对于流量随时间可能发生变化的数据流,如果按照固定的采样比例进行采样,那么单位时间内采样得到的数据的数据量,会随着时间变化产生波动,可能与期望采样得到的数据量相差较远。
技术实现思路
本专利技术实施例的目的在于提供一种基于渐变数据流的采样方法,以减小采样得到的数据的数据量随时间的波动。具体技术方案如下:在本专利技术实施例的第一方面,提供了一种基于实时数据流的数据采样方法,所述方法包括:在预设采样周期到达时,获取最近预设采样周期内所接受到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。进一步的,所述按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样,包括:在当前预设采样周期内每接收到一条数据,生成一个取值范围为0到1的伪随机数;如果所述伪随机数小于所述采样比例,采集该条数据。进一步的,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定预 ...
【技术保护点】
1.一种基于实时数据流的数据采样方法,其特征在于,所述方法包括:在预设采样周期到达时,获取最近预设采样周期内所接收到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。
【技术特征摘要】
1.一种基于实时数据流的数据采样方法,其特征在于,所述方法包括:在预设采样周期到达时,获取最近预设采样周期内所接收到的待采样数据的数据量,并将所述待采样数据的数据量作为参考数据量;确定预设的期望采样数据量与所述参考数据量的比值,并将所述比值作为采样比例;按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。2.根据权利要求1所述的方法,其特征在于,所述按照所述采样比例,对当前预设采样周期内所接收到的待采样数据进行采样,包括:在当前预设采样周期内每接收到一条数据,生成一个取值范围为0到1的伪随机数;如果所述伪随机数小于所述采样比例,采集该条数据。3.根据权利要求1所述的方法,其特征在于,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定预设的期望采样数据量与所述参考数据量之间的大小关系;如果所述期望采集数据量小于所述参考数据量,执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;或者,如果所述期望采集数据量不小于所述参考数据量,采集当前预设采样周期内所接收到的所有待采样数据。4.根据权利要求1所述的方法,其特征在于,所述获取最近预设采样周期内所接收到的待采样数据的数据量,包括:获取最近预设采样周期内所接收到的数据中不符合预设特征的数据的数据量,并将所述不符合预设特征的数据的数据量作为最近预设采样周期内所接收到的待采样数据的数据量。5.根据权利要求1所述的方法,其特征在于,在所述确定预设的期望采样数据量与所述参考数据量的比值之前,还包括:确定所述参考数据量是否为0;如果所述参考数据量不为0,则执行所述确定预设的期望采样数据量与所述参考数据量的比值的步骤;或者,如果所述参考数据量为0,按照预设采样比例,对当前预设采样周期内所接收到的待采样数据进行采样。6.一种基于实时数据流的数据采样装置,其特征在于,所述装置包括:预估...
【专利技术属性】
技术研发人员:郑培凝,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。