当前位置: 首页 > 专利查询>莫毓昌专利>正文

一种用于多维数据集的全覆盖抽样方法技术

技术编号:17196277 阅读:35 留言:0更新日期:2018-02-03 22:55
本发明专利技术涉及数据分析技术领域,具体涉及一种用于多维数据集的全覆盖抽样方法,它采用如下的方法步骤:步骤一:确定多维数据集D中包含的实体个数,记为N;确定多维数据集D中包含的属性个数,记为L;确定准备抽取的实体个数,记为M;通常对于大数据抽样来说,M远小于N;步骤二:确定多维数据集D中的每个属性Pi(1≤i≤L)的上界和下界;对于属性Pi(1≤i≤L),记其最大值为Maxi(1≤i≤L),其最小值为Mini(1≤i≤L);它在小样本抽样时,能够大大提高抽取特殊实体数据的概率。

【技术实现步骤摘要】
一种用于多维数据集的全覆盖抽样方法
本专利技术涉及数据分析
,具体涉及一种用于多维数据集的全覆盖抽样方法。
技术介绍
在现实世界中,各种实体是具有多种属性,例如人具有年龄,性别,学历等属性。把这些实体和属性存储为数据时就对应多维数据集。下表(表一)给出了一个多维数据集实例,该实例中每一行对应一个实体,一共15个实体,每个实体具有4种属性。表一(如下表):20020030040018019030041020021031040020020031039017018029039022021031041080200300600200100450400180210300400210200310410170210300400220210290390200200300400180210310410200210300410对多维数据集进行数据分析时,抽样是一个典型的操作。根据定义,抽样是从给定的多维数据集中选取一个子集。典型的抽样方法是随机抽样,即从给定的多维数据集中随机抽取一个子集。现实世界中存在一些多维数据集具有如下属性:大部分实体的属性数据是相近的,只有极少数实体的属性数据比较特殊。对于表一的多维数据集实例,第7个和第8个实体的属性数据和其他13个实体的属性数据相比具有较大的特殊性。随机抽样存在的问题是:当所要抽取的子集规模较小时,多维数据集中特殊数据很难被抽取到。对于表一的多维数据集实例,如果我们只抽取2个实体数据,则第7个特殊实体和第8个特殊实体的数据被抽取到的概率较低。因此如何能够尽量覆盖到上述的特殊数据,是本专利技术要解决的问题。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足,提供一种用于多维数据集的全覆盖抽样方法。本专利技术所述的一种用于多维数据集的全覆盖抽样方法,它采用如下的方法步骤:步骤一:确定多维数据集D中包含的实体个数,记为N;确定多维数据集D中包含的属性个数,记为L;确定准备抽取的实体个数,记为M;通常对于大数据抽样来说,M远小于N;步骤二:确定多维数据集D中的每个属性Pi(1≤i≤L)的上界和下界;对于属性Pi(1≤i≤L),记其最大值为Maxi(1≤i≤L),其最小值为Mini(1≤i≤L);步骤三:计算实体属性的最大距离值MaxD,具体公式为:步骤四:利用记号I记录一轮抽样的次数;定义一轮抽样的最多次数K;定义一个空集S,存放抽取的实体;步骤五:把I初始化为1,即I=1,并随机的从多维数据集D中抽取一个实体x放入S中;步骤六:把I增加1,即I=I+1;并随机的从多维数据集D中抽取下一个实体y,计算y和S中任意实体x之间的距离Dx,y,并获得其中的最小值MinDx,y,步骤七:若MinDx,y>MaxD/2,则y放入集合S中,否则不放入;步骤八:若集合S中的实体数量达到M,则完成抽样,退出;步骤九:若抽样的次数I<K,则继续执行本轮抽样,即重复执行步骤六-九;步骤十:若抽样的次数I≥K,则调整参数值MaxD=MaxD/2;并执行下一轮抽样,即重复执行步骤五-步骤十。本专利技术有益效果为:本专利技术所述的一种用于多维数据集的全覆盖抽样方法,在小样本抽样时,能够大大提高抽取特殊实体数据的概率。其中参数K用于控制抽取特殊实体数据的概率,当K值较大时,抽取特殊实体数据的概率较高,代价是总抽样的次数较多;当K值较小时,抽取特殊实体数据的概率较低,好处是总抽样的次数较少。可以根据实际应用情况确定参数K的值。【具体实施方式】下面以具体实施例来详细说明本专利技术,其中的示意性实施例以及说明仅用来解释本专利技术,但并不作为对本专利技术的限定。本具体实施方式所述的一种用于多维数据集的全覆盖抽样方法,它采用如下的方法步骤:步骤一:确定多维数据集D中包含的实体个数,记为N;确定多维数据集D中包含的属性个数,记为L;确定准备抽取的实体个数,记为M;通常对于大数据抽样来说,M远小于N;步骤二:确定多维数据集D中的每个属性Pi(1≤i≤L)的上界和下界;对于属性Pi(1≤i≤L),记其最大值为Maxi(1≤i≤L),其最小值为Mini(1≤i≤L);步骤三:计算实体属性的最大距离值MaxD,具体公式为:步骤四:利用记号I记录一轮抽样的次数;定义一轮抽样的最多次数K;定义一个空集S,存放抽取的实体;步骤五:把I初始化为1,即I=1,并随机的从多维数据集D中抽取一个实体x放入S中;步骤六:把I增加1,即I=I+1;并随机的从多维数据集D中抽取下一个实体y,计算y和S中任意实体x之间的距离Dx,y,并获得其中的最小值MinDx,y,步骤七:若MinDx,y>MaxD/2,则y放入集合S中,否则不放入;步骤八:若集合S中的实体数量达到M,则完成抽样,退出;步骤九:若抽样的次数I<K,则继续执行本轮抽样,即重复执行步骤六-九;步骤十:若抽样的次数I≥K,则调整参数值MaxD=MaxD/2;并执行下一轮抽样,即重复执行步骤五-步骤十。本专利技术以具体实施例来进行详细说明,其说明如下:步骤一:确定表1中多维数据集D中包含的实体个数,N=15;确定多维数据集D中包含的属性个数,L=4;确定准备抽取的实体个数,M=2。步骤二:确定多维数据集D中的每个属性的上界和下界:Max1=220,Min1=80;Max2=210,Min2=100;Max3=450,Min3=290;Max4=600,Min4=390。步骤三:计算实体属性的最大距离值MaxD=318。步骤四:I=0,K=2。步骤五:进行第一轮的第一次抽样:I=1,随机的从多维数据集D中抽取第3个实体x=(200,210,310,400)放入S中,S={(200,210,310,400)}。步骤六:进行第一轮的第二次抽样:I=2,随机的从多维数据集D中抽取第2个实体y=(180,190,300,410),计算y和S中实体之间的距离Dx,y=32,因为S中只有一个实体,所以最小值MinDx,y=Dx,y=32;因为MinDx,y=32小于MaxD/2=159,所以所选的实体y=(180,190,300,410)不放入集合S中;步骤七:进行第一轮的第三次抽样:I=3,随机的从多维数据集D中抽取第6个实体y=(220,210,310,410),计算y和S中实体之间的距离Dx,y=22,因为S中只有一个实体,所以最小值MinDx,y=Dx,y=22;因为MinDx,y=22小于MaxD/2=159,所以所选的实体y=(220,210,310,410)不放入集合S中;步骤八:进行第一轮的第四次抽样:I=4,随机的从多维数据集D中抽取第11个实体y=(170,210,300,390),计算y和S中实体之间的距离Dx,y=37,因为S中只有一个实体,所以最小值MinDx,y=Dx,y=37;为MinDx,y=37小于MaxD/2=159,所以所选的实体y=(170,210,300,390)不放入集合S中;步骤九:因为抽样的次数I=4等于KM,但是S中只有实体x=(200,210,310,400),因为其他三次抽样获得的实体和实体x之间的距离值较小,被认定为非特殊数据,未被采用,所以导致第一轮未抽取足够数量的实体,此时调整参数值MaxD为原值本文档来自技高网...

【技术保护点】
一种用于多维数据集的全覆盖抽样方法,其特征在于:它采用如下的方法步骤:步骤一:确定多维数据集D中包含的实体个数,记为N;确定多维数据集D中包含的属性个数,记为L;确定准备抽取的实体个数,记为M;通常对于大数据抽样来说,M远小于N;步骤二:确定多维数据集D中的每个属性Pi(1≤i≤L)的上界和下界;对于属性Pi(1≤i≤L),记其最大值为Maxi(1≤i≤L),其最小值为Mini(1≤i≤L);步骤三:计算实体属性的最大距离值MaxD,具体公式为:

【技术特征摘要】
1.一种用于多维数据集的全覆盖抽样方法,其特征在于:它采用如下的方法步骤:步骤一:确定多维数据集D中包含的实体个数,记为N;确定多维数据集D中包含的属性个数,记为L;确定准备抽取的实体个数,记为M;通常对于大数据抽样来说,M远小于N;步骤二:确定多维数据集D中的每个属性Pi(1≤i≤L)的上界和下界;对于属性Pi(1≤i≤L),记其最大值为Maxi(1≤i≤L),其最小值为Mini(1≤i≤L);步骤三:计算实体属性的最大距离值MaxD,具体公式为:步骤四:利用记号I记录一轮抽样的次数;定义一轮抽样的最多次数K;定义一个空集S,存放抽取的实体;步骤五:把I初始化为1,即I=1,并随机的从多维数据集D中抽取一个实体x放入S中;步骤六...

【专利技术属性】
技术研发人员:莫毓昌
申请(专利权)人:莫毓昌
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1