一种数据抽样方法及装置制造方法及图纸

技术编号:19822061 阅读:24 留言:0更新日期:2018-12-19 14:48
本申请提供了一种数据抽样方法,确定待抽样数据的分层种类,删除每个分层中离群极值,每个分层中的剩余数据组成目标数据;根据所述目标数据的数量和目标样本数量确定抽样间距;按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元;确定多个随机种子,分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据;依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据。本发明专利技术在分层后对离群极值进行处理有效屏蔽掉离群极值对抽样精度的影响,同时对分层抽样、系统抽样和整群抽样进行组合应用,提高了抽样精度。

【技术实现步骤摘要】
一种数据抽样方法及装置
本专利技术涉及数据处理
,更具体的,涉及一种数据抽样方法及装置。
技术介绍
在系统资源有限、时间一定的情况下,计算机只能处理有限数量的数据,因此抽样的优势即体现出来,通过对数据的抽样,既满足了时间性能的要求,又通过样本数据代表总体数据,达到窥一斑而见全豹的效果。但是抽样也有一定的局限性,存在不稳定性的特征。因此,如何抽取出足够好的样本数据,使样本数据具备充分的代表性和随机性,使用什么方式进行抽样需要深入研究。分层抽样适用于当已知总体由差异明显的几部分组成,为了使样本更客观地反映总体的情况,会将总体分成几个部分,然后再按照各个部分所占的比例进行抽样。不同类型客户的金融数据区分程度非常明显,并且通过客户类型、金额大小维度进行分类分析也已经基本成为了业界的共识。因此对于金融类数据抽样方法的选择上,非常适合通过分层抽样来实现。分层抽样的步骤主要分为两步:一是先将总体分成互不交叉的层;二是各层按照一定的比例,独立地抽取一定数据量的个体。分层抽样的关键点是各层之间的差异很大,层内个体或单元的差异较小。在明确分层维度后,各层之间的差异已经确定,而层内个体样本的差异大小就决定了抽样结果的好坏。现有的分层方法没有考虑离群极值对抽样结果的影响,特别是对于金融数据,会出现由于系统原因、人为疏忽等原因导致的异常值生产情况,抽取到此类异常值会对抽样结果的精度产生影响。在分层后的系统抽样过程中,没有针对随机种子进行合理性的评估,不同种子抽取的稳定性会有差异,随机种子也影响抽样结果的精度。
技术实现思路
有鉴于此,本专利技术提供了一种数据抽样方法及装置,提高抽样精度。为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:一种数据抽样方法,包括:确定待抽样数据的分层种类,删除每个分层中离群极值,每个分层中的剩余数据组成目标数据;根据所述目标数据的数量和目标样本数量确定抽样间距;按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元;确定多个随机种子,分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据;依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据。可选的,所述确定待抽样数据的分层种类,删除每个分层中离群极值,包括:根据待抽样数据的类型确定所述待抽样数据的分层种类,每个分层中包括多个数据;计算每个分层中数据的标准差;对于每个分层,将偏离超过3个标准差范围的数据作为离群极值,并删除分层中所有的离群极值。可选的,所述按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元,包括:对所述目标数据中每个分层的数据进行编号,每个分层中的每个数据对应一个编号;对于每个分层,按照分层中数据编号的顺序,将分层中的数据划分为多个单元,每个单元中数据的数量值与所述抽样间距的值相同。可选的,所述分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据,包括:对于每次系统抽样,随机种子为,所述抽样间距为,对于每个分层,将分层中编号为的数据抽取出来,分层中包括个数据,多个分层抽取的数据组成一组样本数据,多次系统抽样结束后得到多组样本数据。可选的,所述依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据,包括:分别计算每组样本数据的方差;按方差从大到小的顺序对每组样本数据进行排序,每组样本数据对应的一个排名,剔除满足预设排名的至少一组样本数据;在剩余的多组样本数据中随机选择一组样本数据作为最终目标样本数据。一种数据抽样装置,包括:离群极值处理单元,用于确定待抽样数据的分层种类,删除每个分层中离群极值,每个分层中的剩余数据组成目标数据;抽样间距确定单元,用于根据所述目标数据的数量和目标样本数量确定抽样间距;抽样单元划分单元,用于按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元;系统抽样单元,用于确定多个随机种子,分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据;目标样本选取单元,用于依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据。可选的,所述离群极值处理单元,具体用于根据待抽样数据的类型确定所述待抽样数据的分层种类,每个分层中包括多个数据;计算每个分层中数据的标准差;对于每个分层,将偏离超过3个标准差范围的数据作为离群极值,并删除分层中所有的离群极值。可选的,所述抽样单元划分单元,具体用于对所述目标数据中每个分层的数据进行编号,每个分层中的每个数据对应一个编号;对于每个分层,按照分层中数据编号的顺序,将分层中的数据划分为多个单元,每个单元中数据的数量值与所述抽样间距的值相同。可选的,所述系统抽样单元,具体用于对于每次系统抽样,随机种子为,所述抽样间距为,对于每个分层,将分层中编号为的数据抽取出来,分层中包括个数据,多个分层抽取的数据组成一组样本数据,多次系统抽样结束后得到多组样本数据。可选的,所述目标样本选取单元,具体用于分别计算每组样本数据的方差;按方差从大到小的顺序对每组样本数据进行排序,每组样本数据对应的一个排名,剔除满足预设排名的至少一组样本数据;在剩余的多组样本数据中随机选择一组样本数据作为最终目标样本数据。相对于现有技术,本专利技术的有益效果如下:本专利技术提供的一种数据抽样方法及装置,对分层抽样、系统抽样和整群抽样进行组合应用,在对待抽样数据进行分层后对每个分层中的离群极值进行处理,有效屏蔽掉离群极值对抽样精度的影响。在系统抽样过程中增加随机种子的个数,对不同随机种子抽样结果根据预设规则进行比较和评估,通过整群抽样的方法选取最终目标样本数据,减小了单一随机种子对抽样精度的影响,提高了抽样的精度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例公开的一种数据抽样方法流程图;图2为本专利技术实施例公开的抽样比例确定示意图;图3为本专利技术实施例公开的抽样单元划分示意图;图4为本专利技术实施例公开的系统抽样示意图;图5为本专利技术实施例公开的整群抽样示意图;图6为本专利技术实施例公开的一种数据抽样装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本实施例公开了一种数据抽样方法,包括:S101:确定待抽样数据的分层种类,删除每个分层中离群极值,每个分层中的剩余数据组成目标数据;待抽样数据为需要对其进行抽样的数据,可以为任意种类的数据。为了尽可能提高抽样精度,减少每层数据的方差,需要选择恰当的变量维度作为分层标志,即,要根据待抽样数据的类型确定待抽样数据的分层种类,以金融数据为例,可以根据客户属性或金额区段对金融数据进行分层。具体的,根据待抽样数据的类型确本文档来自技高网...

【技术保护点】
1.一种数据抽样方法,其特征在于,包括:确定待抽样数据的分层种类,删除每个分层中离群极值,每个分层中的剩余数据组成目标数据;根据所述目标数据的数量和目标样本数量确定抽样间距;按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元;确定多个随机种子,分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据;依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据。

【技术特征摘要】
1.一种数据抽样方法,其特征在于,包括:确定待抽样数据的分层种类,删除每个分层中离群极值,每个分层中的剩余数据组成目标数据;根据所述目标数据的数量和目标样本数量确定抽样间距;按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元;确定多个随机种子,分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据;依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据。2.根据权利要求1所述的方法,其特征在于,所述确定待抽样数据的分层种类,删除每个分层中离群极值,包括:根据待抽样数据的类型确定所述待抽样数据的分层种类,每个分层中包括多个数据;计算每个分层中数据的标准差;对于每个分层,将偏离超过3个标准差范围的数据作为离群极值,并删除分层中所有的离群极值。3.根据权利要求1所述的方法,其特征在于,所述按所述抽样间距将所述目标数据中每个分层的数据划分为多个单元,包括:对所述目标数据中每个分层的数据进行编号,每个分层中的每个数据对应一个编号;对于每个分层,按照分层中数据编号的顺序,将分层中的数据划分为多个单元,每个单元中数据的数量值与所述抽样间距的值相同。4.根据权利要求1所述的方法,其特征在于,所述分别根据每个随机种子和所述抽样间距,按照系统抽样方法在所述目标数据的每个分层中进行抽样,得到多组样本数据,包括:对于每次系统抽样,随机种子为l,所述抽样间距为k,对于每个分层,将分层中编号为l,l+k,...,l+(n-1)k的数据抽取出来,分层中包括nk个数据,多个分层抽取的数据组成一组样本数据,多次系统抽样结束后得到多组样本数据。5.根据权利要求1所述的方法,其特征在于,所述依据预设规则在所述多组样本数据中选取一组样本数据作为最终目标样本数据,包括:分别计算每组样本数据的方差;按方差从大到小的顺序对每组样本数据进行排序,每组样本数据对应的一个排名,剔除满足预设排名的至少一组样本数据;在剩余的多组...

【专利技术属性】
技术研发人员:高晓鹏李乾张怡康
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1