【技术实现步骤摘要】
本申请涉及信息技术,尤其涉及一种数据抽样方法、装置、设备及介质。
技术介绍
1、大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为数据抽样带来了机遇与挑战。在日常生活中,为了实现某些运营活动的需求,经常采用数据抽样的方式对大数据进行分析处理。从大量数据中随机抽取一部分数据,作为对照组,并对抽取出的对照组进行后续的处理。
2、目前,数据人员在进行数据抽样时,通常会使用随机数等比较方便的办法进行抽样。但是当数据量大时,随机数的方法会导致数据分布不均匀,对照组结果不科学。为了更加科学地对数据进行抽样,一般数据处理人员会先确定数据抽样的维度,再进行抽样。但是,当维度个数过多、数据量较大时,这种抽样方法会导致得到的抽样结果中存在重复数据,需要进一步做二次处理,流程繁琐。
技术实现思路
1、本申请提供一种数据抽样方法、装置、设备及介质,用以解决抽样结果存在重复数据的问题。
2、一方面,本申请提供一种数据抽样方法,包括:获取原始数据、原始数据对
...【技术保护点】
1.一种数据抽样方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据对应的维度树,包括:
3.根据权利要求1所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数
...【技术特征摘要】
1.一种数据抽样方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据对应的维度树,包括:
3.根据权利要求1所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述针对所述维度树的每个叶子节点对应的原始数据,按照所述抽样比例,从该叶子节点对应的原始数据中选取对应数量的数据,得到每个叶子节点对应的抽样数据,包括:
6.一种数据抽样装置,其特征在于,包括:
7...
【专利技术属性】
技术研发人员:张晓敏,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。