【技术实现步骤摘要】
一种数据采样方法、装置以及计算机可读存储介质
本申请涉及数据处理的
,尤其涉及一种数据采样方法、装置以及计算机可读存储介质。
技术介绍
随着计算机网络的不断发展,计算机网络中所产生的数据的数据量与日俱增,当需要对计算机网络中的全量数据进行大数据统计分析时,首先,需要对该全量数据进行采样统计,进而可以通过采样统计所得到的数据来表征全量数据,例如,可以将采样统计所得到的数据的数据特征作为全量数据的数据特征。现有技术中,当需要对某个时间段内所产生的数据进行数据采样时,通常需要预先将该时间段内的所有数据全部读取下来,然后采用一个设定的采样率再对所读取得到的该时间段内的数据进行采样。由于现有技术中,需要将该时间段内的所有数据都预先读取下来,因此,当该时间段内数据的数据量过大时,会对系统容量有较高的要求。
技术实现思路
本申请提供了一种数据采样方法、装置以及计算机可读存储介质,可在对数据进行采样时,节省系统容量。本申请一方面提供了一种数据采样方法,包括:在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,合并采样数据的第三采样率是根据第一采样率和历史采样数据的第二采样率所确定的,历史采样数据为在得到目标采样数据之前对目标类型的数据采样获取到的目标类型的采样数据,第二采样率是历史采样数据相对于目标类型的数据的采样率,第三采样率是合并采样数据相对于目标类型的数据的采样率;当合 ...
【技术保护点】
1.一种数据采样方法,其特征在于,包括:/n在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;/n对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,所述合并采样数据的第三采样率是根据所述第一采样率和所述历史采样数据的第二采样率所确定的,所述历史采样数据为在得到所述目标采样数据之前对所述目标类型的数据采样获取到的所述目标类型的采样数据,所述第二采样率是所述历史采样数据相对于所述目标类型的数据的采样率,所述第三采样率是所述合并采样数据相对于所述目标类型的数据的采样率;/n当所述合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对所述合并采样数据进行采样,得到更新历史采样数据,所述采样数量阈值与所述目标类型的数据相关,所述自适应采样参数用于将所述合并采样数据的数量控制在所述采样数量阈值内;/n将所述采样数据库中的所述历史采样数据替换为所述更新历史采样数据。/n
【技术特征摘要】
1.一种数据采样方法,其特征在于,包括:
在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;
对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,所述合并采样数据的第三采样率是根据所述第一采样率和所述历史采样数据的第二采样率所确定的,所述历史采样数据为在得到所述目标采样数据之前对所述目标类型的数据采样获取到的所述目标类型的采样数据,所述第二采样率是所述历史采样数据相对于所述目标类型的数据的采样率,所述第三采样率是所述合并采样数据相对于所述目标类型的数据的采样率;
当所述合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对所述合并采样数据进行采样,得到更新历史采样数据,所述采样数量阈值与所述目标类型的数据相关,所述自适应采样参数用于将所述合并采样数据的数量控制在所述采样数量阈值内;
将所述采样数据库中的所述历史采样数据替换为所述更新历史采样数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述自适应采样参数和所述第三采样率,确定第四采样率,以便于在第二时间窗口将所述第四采样率作为所述第一采样率对所述目标类型的数据进行采样,其中所述第四采样率是所述更新历史采样数据相对于所述目标类型的数据的采样率,所述第二时间窗口是所述第一时间窗口的下一个时间窗口。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:
当所述第一采样率大于所述第二采样率时,将所述第二采样率与所述第一采样率之间的比值确定为第一比值采样率;
根据所述第一比值采样率,对所述目标采样数据进行采样,得到采样后的目标采样数据;
将所述采样后的目标采样数据和所述历史采样数据,确定为所述合并采样数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:
当所述第一采样率小于所述第二采样率时,将所述第一采样率与所述第二采样率之间的比值确定为第二比值采样率;
根据所述第二比值采样率,对所述历史采样数据进行采样,得到采样后的历史采样数据;
将所述采样后的历史采样数据和所述目标采样数据,确定为所述合并采样数据;
当所述第一采样率等于所述第二采样率时,将所述目标采样数据和所述历史采样数据确定为所述合并采样数据。
5.根据权利要求1所述的方法,其特征在于,所述在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据,包括:
将所述历史采样数据的所述第二采样率确定为所述第一采样率;
在所述第一时间窗口内,采用所述第一采样率对所述目标类型的数据进行采样,得到所述目标采样数据;
则,所述对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:
将所述目标采样数据和所述历史采样数据,确定为所述合并采样数据。
6.根据权利要求1所述的方法,其特征在于,所述当所述合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对所述合并采样数据进行采样,得到更新历史采样数据,包括:
当所述合并采样数据的数量大于所述采样数量阈值时,获取所述合并采样数据对应的数据标识字符串;
将所述数据标识字符串映射到均匀采样空间中,得到所述数据标识字符串对应的哈希值;
根据所述第三采样率、所述自适应采样参数以及所述哈希值,对所述合并采样数据进行采样,得到所述更新历史采样数据。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第三采样率、所述自适应采样参数以及所述哈希值,对所述合并采样数据进行采样,得到所述更新历史采样数据,包括:
根据所述第三采样率和所述自适应采样参数,得到第四采样率;
基于所述第四采样率和所述哈希值,对所述合并采样数据进行采样,得到所述更新历史采样数据;所述第四采样率是所述更新历史采样数据相对于所述目标类型的数据...
【专利技术属性】
技术研发人员:袁建伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。