采样率调整的方法、装置、存储介质和终端设备制造方法及图纸

技术编号:23084989 阅读:34 留言:0更新日期:2020-01-11 01:07
本发明专利技术提出一种采样率调整的方法、装置、存储介质和终端设备,其中,所述方法包括:根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;根据所述预估指标对所述采样率进行评估;以及根据评估结果,确定是否调整所述采样率。采用本发明专利技术,可以分区采样、减少存储空间的浪费。

Method, device, storage medium and terminal equipment of sampling rate adjustment

【技术实现步骤摘要】
采样率调整的方法、装置、存储介质和终端设备
本专利技术涉及计算机
,尤其涉及一种采样率调整的方法、装置、存储介质和终端设备。
技术介绍
随着数据采集技术的进步和数据存储介质的成本下降,企业对行为数据的积累愈发迅速,某些企业的数据规模每天可高达PB(petabyte,千万亿字节)数量级。行为数据是记录机体的行为和在行为发生时环境的观察报告。一条行为数据的记录通常由主体、客体、时间、环境、程度等多个要素构成。行为数据在经过收集、清洗、计算以及格式转换等处理之后,可以以表格的形式存储到一张或多张事实数据表中。这种表格通常包含数十到上百个维度或指标列,在多个维度或指标上进行筛选、分组、聚合、连接等计算,并结合企业其他维度表是企业进行数据分析的常用方法。数据分析是一项探索性很强的工作,往往需要通过不断地试错,渐进式地分析才能得到分析结果。因而数据分析过程中对数据查询的响应速度有一定的要求。业内的数据查询系统包括Hive、SparkSQL或Impala等,其在性能方面已经做了大量的优化。然而,在现实计算资源有限的情况下,其在规定时间内所能处理的数据量仍然是受限的。数据分析往往需要选择时间跨度长短不一的历史数据进行分。当选择的时间跨度很大时,数据系统的响应速度往往跟不上精度的需求。此时要求系统提供一种机制在分析速度和精度间提供分析人员选择。通常,分析系统会让分析人员在数据分析时选择采样率,以便其在分析速度和精度间找到平衡。在数据查询时,采样率调整的方案普遍采用如下方案来解决:(1)随机数据块采样。将数据以固定大小分块的形式存储在分析系统中。在查询时,根据用户选择的采样率随机调取部分数据块进行查询,并将计算得到的指标按采样率进行还原,以还原真实的指标数据。(2)冗余多份采样数据。按照不同的采样率预先进行数据采样,并将采样到的数据存入与采样率相对应的数据表中。在查询时,根据用户选择的采样率,选择与采样率相对应的数据表进行查询。但是,上述方案也仍存在不足之处:1、对于方案(1)来说,由于其不了解数据的分布,采样到的数据存在某些维度上没有均匀采样的现象,导致分析这些维度时指标的计算与整体存在偏差,对于某些指标的计算,甚至还会放大该指标,不适合用于分析行为数据。2、对于方案(2)来说,虽然可以克服采样不均的问题,适合用于分析行为数据,但是会带来存储空间上的浪费。例如,当提供用户32种采样率的选择时,需要存储相对于采样率的32份的数据。在采样的数据量较大的情况下,此方案会消耗大量的存储资源。
技术实现思路
本专利技术实施例提供一种采样率调整的方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。第一方面,本专利技术实施例提供了一种采样率调整的方法,包括:根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;以及根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;根据所述预估指标对所述采样率进行评估;以及根据评估结果,确定是否调整所述采样率。结合第一方面,在第一方面的第一种实施方式中,根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区,包括:根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量,包括:通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述方法还包括:根据所述需要查询的存储分区的数量和所述存储分区总数,计算所述采样率。结合第一方面的第一种实施方式,在第一方面的第四种实施方式中,根据所述预估指标对选择的采样率进行评估,包括:获取所述待采样数据的真实指标;以及根据所述真实指标和所述预估指标,评估所述选择的采样率。结合第一方面的第一种实施方式,在第一方面的第五种实施方式中,所述方法还包括:对待存储数据的标识进行哈希计算,获得对应的哈希值;以及根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。第二方面,本专利技术实施例提供一种采样率调整的装置,包括:存储分区确定模块,用于根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;其中,所述待采样数据是按照各自对应的哈希值存储在所述存储分区中;采样指标获取模块,用于对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;以及采样还原模块,用于根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;采样率评估模块,用于根据所述预估指标对所述采样率进行评估;以及采样率调整模块,用于根据评估结果,确定是否调整所述采样率。结合第二方面,在第二方面的第一种实施方式中,所述存储分区确定模块包括:分区数量计算单元,用于根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及查询分区确定单元,用于根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。结合第二方面,在第二方面的第二种实施方式中,所述分区数量计算单元,具体用于:通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。结合第二方面,在第二方面的第三种实施方式中,所述装置还包括:哈希计算模块,用于对待存储数据的标识进行哈希计算,获得对应的哈希值;以及数据存储模块,用于根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,采样率调整的结构中包括处理器和存储器,所述存储器用于采样率调整的装置执行上述第一方面中采样率调整的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述采样率调整的装置还可以包括通信接口,用于采样率调整的装置与其他设备或通信网络通信。第三方面,本专利技术实施例还提供一种计算机可读存储介质,用于采样率调整的装置所用的计算机软件指令,其中包括用于执行上述第一方面的采样率调整的方法所涉及的程序。上述技术方案中的其中一个技术方案具有如下优点或有益效果:本文档来自技高网
...

【技术保护点】
1.一种采样率调整的方法,其特征在于,包括:/n根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;/n对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;/n根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;/n根据所述预估指标对所述采样率进行评估;以及/n根据评估结果,确定是否调整所述采样率。/n

【技术特征摘要】
1.一种采样率调整的方法,其特征在于,包括:
根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区;
对所述需要查询的存储分区进行数据采样,获得所述待采样数据的采样指标;
根据所述采样指标和所述采样率进行采样还原,获得所述待采样数据的预估指标;
根据所述预估指标对所述采样率进行评估;以及
根据评估结果,确定是否调整所述采样率。


2.如权利要求1所述的采样率调整的方法,其特征在于,根据采样率和待采样数据的存储分区总数,从所述待采样数据的所有存储分区中确定出需要查询的存储分区,包括:
根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量;以及
根据预设的采样规则和所述需要查询的存储分区的数量,从所述待采样数据的所有存储分区中确定出需要查询的存储分区。


3.如权利要求2所述的采样率调整的方法,其特征在于,根据所述采样率和所述待采样数据的存储分区总数,计算需要查询的存储分区的数量,包括:
通过向上取整函数,计算所述采样率与所述待采样数据的存储分区总数的乘积,获得所述需要查询的存储分区的数量。


4.如权利要求3所述的采样率调整的方法,其特征在于,所述方法还包括:
根据所述需要查询的存储分区的数量和所述存储分区总数,计算所述采样率。


5.如权利要求1所述的采样率调整的方法,其特征在于,根据所述预估指标对选择的采样率进行评估,包括:
获取所述待采样数据的真实指标;以及
根据所述真实指标和所述预估指标,评估所述选择的采样率。


6.如权利要求1所述的采样率调整的方法,其特征在于,所述方法还包括:
对待存储数据的标识进行哈希计算,获得对应的哈希值;以及
根据待存储数据对应的哈希值和所述存储分区总数,将所述待存储数据存储于相应的存储分区中。


7.一种采样率调整的装置,其特征在于,包括:
存储分区确定模块,...

【专利技术属性】
技术研发人员:余韬
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1