数据抽样方法、装置、设备及介质制造方法及图纸

技术编号:43784768 阅读:19 留言:0更新日期:2024-12-24 16:19
本申请提供一种数据抽样方法、装置、设备及介质。该方法包括:获取原始数据、所述原始数据对应的维度树以及抽样比例,针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,整合所述维度树的所有叶子节点对应的抽样数据,得到数据抽样结果。本申请的方案,能够实现便捷、准确的数据抽样。

【技术实现步骤摘要】

本申请涉及信息技术,尤其涉及一种数据抽样方法、装置、设备及介质


技术介绍

1、大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为数据抽样带来了机遇与挑战。在日常生活中,为了实现某些运营活动的需求,经常采用数据抽样的方式对大数据进行分析处理。从大量数据中随机抽取一部分数据,作为对照组,并对抽取出的对照组进行后续的处理。

2、目前,数据人员在进行数据抽样时,通常会使用随机数等比较方便的办法进行抽样。但是当数据量大时,随机数的方法会导致数据分布不均匀,对照组结果不科学。为了更加科学地对数据进行抽样,一般数据处理人员会先确定数据抽样的维度,再进行抽样。但是,当维度个数过多、数据量较大时,这种抽样方法会导致得到的抽样结果中存在重复数据,需要进一步做二次处理,流程繁琐。


技术实现思路

1、本申请提供一种数据抽样方法、装置、设备及介质,用以解决抽样结果存在重复数据的问题。

2、一方面,本申请提供一种数据抽样方法,包括:获取原始数据、原始数据对应的维度树以及抽样比本文档来自技高网...

【技术保护点】

1.一种数据抽样方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据对应的维度树,包括:

3.根据权利要求1所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数...

【技术特征摘要】

1.一种数据抽样方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据对应的维度树,包括:

3.根据权利要求1所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,包括:

6.一种数据抽样装置,其特征在于,包括:

7...

【专利技术属性】
技术研发人员:张晓敏
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1