一种数据采样方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:29872314 阅读:11 留言:0更新日期:2021-08-31 23:47
本申请公开了一种数据采样方法、装置以及计算机可读存储介质,该方法包括:在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,合并采样数据的第三采样率是根据第一采样率和历史采样数据的第二采样率所确定的,当合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对合并采样数据进行采样,得到更新历史采样数据,采样数量阈值与目标类型的数据相关;自适应采样参数用于将合并采样数据的数量控制在采样数量阈值内;将采样数据库中的历史采样数据替换为更新历史采样数据。采用本申请,在对数据进行采样时,可节省系统容量。

【技术实现步骤摘要】
一种数据采样方法、装置以及计算机可读存储介质
本申请涉及数据处理的
,尤其涉及一种数据采样方法、装置以及计算机可读存储介质。
技术介绍
随着计算机网络的不断发展,计算机网络中所产生的数据的数据量与日俱增,当需要对计算机网络中的全量数据进行大数据统计分析时,首先,需要对该全量数据进行采样统计,进而可以通过采样统计所得到的数据来表征全量数据,例如,可以将采样统计所得到的数据的数据特征作为全量数据的数据特征。现有技术中,当需要对某个时间段内所产生的数据进行数据采样时,通常需要预先将该时间段内的所有数据全部读取下来,然后采用一个设定的采样率再对所读取得到的该时间段内的数据进行采样。由于现有技术中,需要将该时间段内的所有数据都预先读取下来,因此,当该时间段内数据的数据量过大时,会对系统容量有较高的要求。
技术实现思路
本申请提供了一种数据采样方法、装置以及计算机可读存储介质,可在对数据进行采样时,节省系统容量。本申请一方面提供了一种数据采样方法,包括:在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,合并采样数据的第三采样率是根据第一采样率和历史采样数据的第二采样率所确定的,历史采样数据为在得到目标采样数据之前对目标类型的数据采样获取到的目标类型的采样数据,第二采样率是历史采样数据相对于目标类型的数据的采样率,第三采样率是合并采样数据相对于目标类型的数据的采样率;当合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对合并采样数据进行采样,得到更新历史采样数据,采样数量阈值与目标类型的数据相关,自适应采样参数用于将合并采样数据的数量控制在采样数量阈值内;将采样数据库中的历史采样数据替换为更新历史采样数据。其中,方法还包括:根据自适应采样参数和第三采样率,确定第四采样率,以便于在第二时间窗口将第四采样率作为第一采样率对目标类型的数据进行采样,其中第四采样率是更新历史采样数据相对于目标类型的数据的采样率,第二时间窗口是第一时间窗口的下一个时间窗口。其中,对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:当第一采样率大于第二采样率时,将第二采样率与第一采样率之间的比值确定为第一比值采样率;根据第一比值采样率,对目标采样数据进行采样,得到采样后的目标采样数据;将采样后的目标采样数据和历史采样数据,确定为合并采样数据。其中,对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:当第一采样率小于第二采样率时,将第一采样率与第二采样率之间的比值确定为第二比值采样率;根据第二比值采样率,对历史采样数据进行采样,得到采样后的历史采样数据;将采样后的历史采样数据和目标采样数据,确定为合并采样数据;当第一采样率等于第二采样率时,将目标采样数据和历史采样数据确定为合并采样数据。其中,在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据,包括:将历史采样数据的第二采样率确定为第一采样率;在第一时间窗口内,采用第一采样率对目标类型的数据进行采样,得到目标采样数据;则,对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:将目标采样数据和历史采样数据,确定为合并采样数据。其中,当合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对合并采样数据进行采样,得到更新历史采样数据,包括:当合并采样数据的数量大于采样数量阈值时,获取合并采样数据对应的数据标识字符串;将数据标识字符串映射到均匀采样空间中,得到数据标识字符串对应的哈希值;根据第三采样率、自适应采样参数以及哈希值,对合并采样数据进行采样,得到更新历史采样数据。其中,根据第三采样率、自适应采样参数以及哈希值,对合并采样数据进行采样,得到更新历史采样数据,包括:根据第三采样率和自适应采样参数,得到第四采样率;基于第四采样率和哈希值,对合并采样数据进行采样,得到更新历史采样数据;第四采样率是更新历史采样数据相对于目标类型的数据的采样率。其中,还包括:当合并采样数据的数量小于或者等于采样数量阈值时,将采样数据库中的历史采样数据替换为合并采样数据。其中,第一时间窗口的上一个时间窗口为第三时间窗口;第一时间窗口和第三时间窗口具备交集时间窗口;历史采样数据为在第三时间窗口的交集时间窗口内对目标类型的数据进行采样所得到的采样数据;在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据,包括:在第一时间窗口的除交集时间窗口之外的时间窗口内,以第一采样率对目标类型的数据进行采样,得到目标采样数据;则,对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:当历史采样数据的数量小于合并数量阈值,且第一采样率与第二采样率之间的比值小于比值阈值时,删除历史采样数据,将目标采样数据确定为合并采样数据。其中,在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据,包括:在第一时间窗口从数据流中读取目标类型的数据,对读取到的目标类型的数据进行字段解析,得到初始解析数据;基于过滤机制对初始解析数据中的多个字段信息进行过滤,得到过滤解析数据;基于词表关联机制在过滤解析数据中添加关联字段信息,得到采样业务数据;以第一采样率对采样业务数据进行采样,得到目标采样数据。其中,在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据,包括:在第一时间窗口,通过第一线程以第一采样率对目标类型的数据进行采样,得到目标采样数据;则,对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:通过第二线程对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据。本申请一方面提供了一种数据采样装置,包括:采样模块,用于在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;合并模块,用于对目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,合并采样数据的第三采样率是根据第一采样率和历史采样数据的第二采样率所确定的,历史采样数据为在得到目标采样数据之前对目标类型的数据采样获取到的目标类型的采样数据,第二采样率是历史采样数据相对于目标类型的数据的采样率,第三采样率是合并采样数据相对于目标类型的数据的采样率;自适应采样模块,用于当合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对合并采样数据进行采样,得到更新历史采样数据,采样数量阈值与目标类型的数据相关,自适应采样参数用于将合并采样数据的数量控制在采样数量阈值内;替换模块,用于将采样数据库中的历史采样数据替换为本文档来自技高网...

【技术保护点】
1.一种数据采样方法,其特征在于,包括:/n在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;/n对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,所述合并采样数据的第三采样率是根据所述第一采样率和所述历史采样数据的第二采样率所确定的,所述历史采样数据为在得到所述目标采样数据之前对所述目标类型的数据采样获取到的所述目标类型的采样数据,所述第二采样率是所述历史采样数据相对于所述目标类型的数据的采样率,所述第三采样率是所述合并采样数据相对于所述目标类型的数据的采样率;/n当所述合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对所述合并采样数据进行采样,得到更新历史采样数据,所述采样数量阈值与所述目标类型的数据相关,所述自适应采样参数用于将所述合并采样数据的数量控制在所述采样数量阈值内;/n将所述采样数据库中的所述历史采样数据替换为所述更新历史采样数据。/n

【技术特征摘要】
1.一种数据采样方法,其特征在于,包括:
在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据;
对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,其中,所述合并采样数据的第三采样率是根据所述第一采样率和所述历史采样数据的第二采样率所确定的,所述历史采样数据为在得到所述目标采样数据之前对所述目标类型的数据采样获取到的所述目标类型的采样数据,所述第二采样率是所述历史采样数据相对于所述目标类型的数据的采样率,所述第三采样率是所述合并采样数据相对于所述目标类型的数据的采样率;
当所述合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对所述合并采样数据进行采样,得到更新历史采样数据,所述采样数量阈值与所述目标类型的数据相关,所述自适应采样参数用于将所述合并采样数据的数量控制在所述采样数量阈值内;
将所述采样数据库中的所述历史采样数据替换为所述更新历史采样数据。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述自适应采样参数和所述第三采样率,确定第四采样率,以便于在第二时间窗口将所述第四采样率作为所述第一采样率对所述目标类型的数据进行采样,其中所述第四采样率是所述更新历史采样数据相对于所述目标类型的数据的采样率,所述第二时间窗口是所述第一时间窗口的下一个时间窗口。


3.根据权利要求1所述的方法,其特征在于,所述对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:
当所述第一采样率大于所述第二采样率时,将所述第二采样率与所述第一采样率之间的比值确定为第一比值采样率;
根据所述第一比值采样率,对所述目标采样数据进行采样,得到采样后的目标采样数据;
将所述采样后的目标采样数据和所述历史采样数据,确定为所述合并采样数据。


4.根据权利要求1所述的方法,其特征在于,所述对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:
当所述第一采样率小于所述第二采样率时,将所述第一采样率与所述第二采样率之间的比值确定为第二比值采样率;
根据所述第二比值采样率,对所述历史采样数据进行采样,得到采样后的历史采样数据;
将所述采样后的历史采样数据和所述目标采样数据,确定为所述合并采样数据;
当所述第一采样率等于所述第二采样率时,将所述目标采样数据和所述历史采样数据确定为所述合并采样数据。


5.根据权利要求1所述的方法,其特征在于,所述在第一时间窗口以第一采样率对目标类型的数据进行采样,得到目标采样数据,包括:
将所述历史采样数据的所述第二采样率确定为所述第一采样率;
在所述第一时间窗口内,采用所述第一采样率对所述目标类型的数据进行采样,得到所述目标采样数据;
则,所述对所述目标采样数据和采样数据库中的历史采样数据进行合并,得到合并采样数据,包括:
将所述目标采样数据和所述历史采样数据,确定为所述合并采样数据。


6.根据权利要求1所述的方法,其特征在于,所述当所述合并采样数据的数量大于采样数量阈值时,基于自适应采样参数对所述合并采样数据进行采样,得到更新历史采样数据,包括:
当所述合并采样数据的数量大于所述采样数量阈值时,获取所述合并采样数据对应的数据标识字符串;
将所述数据标识字符串映射到均匀采样空间中,得到所述数据标识字符串对应的哈希值;
根据所述第三采样率、所述自适应采样参数以及所述哈希值,对所述合并采样数据进行采样,得到所述更新历史采样数据。


7.根据权利要求6所述的方法,其特征在于,所述根据所述第三采样率、所述自适应采样参数以及所述哈希值,对所述合并采样数据进行采样,得到所述更新历史采样数据,包括:
根据所述第三采样率和所述自适应采样参数,得到第四采样率;
基于所述第四采样率和所述哈希值,对所述合并采样数据进行采样,得到所述更新历史采样数据;所述第四采样率是所述更新历史采样数据相对于所述目标类型的数据...

【专利技术属性】
技术研发人员:袁建伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1