【技术实现步骤摘要】
本申请涉及计算机领域,具体而言,涉及一种数据处理方法和装置、存储介质及电子设备。
技术介绍
1、目前,在统计推断中,bootstrap过程是一种非参数的重抽样方法,用于估计统计量的分布、标准差以及置信区间。该方法的基本思想是通过从原始样本中有放回地抽取大量的自助样本(bootstrap样本),然后基于这些自助样本进行统计推断。常规bootstrap过程一般基于spark计算框架实现,通过spark计算框架对分布式数据进行有放回抽样的过程可以理解为使用了近似算法,对每个样本独立地产生一个泊松分布的随机数,来确定这个样本在结果中出现的次数。由于spark计算框架的算法结果是近似的,存在一定误差,而且抽样结果的样本个数无法精确指定,例如,期望精确地抽样m个样本,spark的抽样结果大概率不是精确的m个,而是在m附近的一个随机值,因此,会造成抽样数据的处理结果不够准确,导致抽样数据的处理效率较低的技术问题。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施
...【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述从所述目标采样数量开始逐批次随机采样,得到每一批次对应的当前采样数量和剩余采样数量,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述从所述目标采样数量开始逐批次随机采样,得到每一批次对应的当前采样数量和剩余采样数量,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的方法,其特征在于,所述在第j-1批次剩余样本数量满足第一预设条件或第j批次剩余采样数量满足第二预设条件的情况下,根据j批次采样结果确定所述目标分布式采样结果,包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述根据第c行对应的第一时间复杂度和第二时间复杂度的比较关系执行第c+1行采样,直到确定出d个采样结果,将所述d...
【专利技术属性】
技术研发人员:熊涛,白旭东,张婧婧,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。