一种用于大数据随机抽样的方法和系统技术方案

技术编号：11993401 阅读：147 留言：0更新日期：2015-09-02 21:23

本申请提供了一种数据库中的随机抽样方法，该方法包括以下步骤：将多个记录分为多个组；随机抽取该多个组中的一个或多个组；以及在所随机抽取的该一个或多个组中，随机抽取要抽取数量的记录。此外，本申请还提供了一种用于数据库中的随机抽样系统和计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及一种随机抽样方法和系统，具体地，涉及一种用于大数据随机抽样的方法和系统。
技术介绍
在做市场调查的时候，需要从一个很大的样本库中随机筛选出一定量的样本来做调查，即需要随机抽样调查。存在众多分布式存储系统。例如，HBase是一个no-sql (不支持sql条件查询)的key-value (键值)分布式存储系统，在大数据存取的应用场景中表现十分优异。当我们在进行随机抽样调查时，如果样本库的量级达到了亿级别，我们可以选择具有海量存储能力的数据库(例如HBase)来存取数据。从而实现高效的随机抽样，得到所需要的样本来做调查。现有技术中存在多种随机抽样的方案。第一种方案是将大数据存储在传统的关系型数据库中，利用分库分表的方式，将数据离散存储在不同库和表中。需要随机抽样时，根据所选的样本数据，通过先把所有样本数据读取出来，然后针对每个样本，通过随机函数(Random)生成一个随机数，如果随机数匹配一个值，就采用这个样本，以这种方式来达到随机抽样的效果。该方案存在以下缺陷:传统的数据库就需要用到分库分表(将数据分块存储到不同的库以及不同的表中)等技术，当数据...

【技术保护点】
一种数据库中的随机抽样方法，所述方法包括以下步骤：步骤a：将多个记录分为多个组；步骤b：随机抽取所述多个组中的一个或多个组；以及步骤c：在所随机抽取的所述一个或多个组中，随机抽取要抽取数量的记录。

【技术特征摘要】

【专利技术属性】
技术研发人员：唐平，梁竹，肖丹，王威，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人