一种基于统计分析的小样本数据模型验证方法技术

技术编号:19342986 阅读:27 留言:0更新日期:2018-11-07 14:12
一种基于统计分析的小样本数据模型验证方法,本发明专利技术涉及小样本数据模型验证方法。本发明专利技术的目的是为了解决传统的Bootstrap方法再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果不够准确,存在一定风险的问题。过程为:一、对参考样本和仿真样本进行正态性检验,若服从正态分布,则执行二;二、当n≥30时,采用U检验法;当10<n<30时,采用t或F检验法;当3<n≤10时,采用

A validation method of small sample data model based on statistical analysis

A small sample data model verification method based on statistical analysis relates to a small sample data model verification method. The aim of the present invention is to solve the problem that the range of regenerated samples by traditional Bootstrap method is limited to the range of original samples; especially in the case of small sample size, the distribution of regenerated samples may deviate from the true distribution, resulting in inaccurate estimation results and a certain risk. The process is as follows: 1. Normality test for reference samples and simulation samples, and 2. If the normal distribution is obeyed; 2. U test is used when n < 30; t or F test is used when 10 < n < 30; and 3 < n < 10.

【技术实现步骤摘要】
一种基于统计分析的小样本数据模型验证方法
本专利技术涉及小样本数据模型验证方法。
技术介绍
模型验证是确保仿真模型是否可以正确代替真实系统进行实验的重要手段,是仿真领域研究的重点问题之一。模型验证的主要思想是在同等输入条件下,对真实物理系统实验输出的参考数据和仿真模型实验输出的仿真数据的一致性进行分析;根据仿真样本与参考样本是否一致,决定仿真模型是否可信。在实际应用工程中,如飞行器仿真模型,由于试验条件、试验经费等因素的限制,无法进行大量的重复性试验,使得真实系统输出的数据样本量较小。在应用中,一般将样本数量小于30的统称为小样本;其中,样本数量大于10且小于30,称为一般小样本;样本数量大于3且小于等于10,称为特小样本;样本数量小于等于3称为超小样本。小样本问题给飞行器仿真模型验证工作带来困难,因此有必要研究如何利用小样本参考数据,对仿真模型进行验证。统计分析是模型验证中常用的方法,然而在参考数据样本量较小的情况下,某些统计学方法无法直接使用。而Bayes方法却能实现对小样本以及特小样本的处理,该方法充分利用先验信息,减少了对样本容量的要求,故将其应用到小样本数据仿真模型验证问题中,Bayes方法应用的重点与难点在于先验分布的获取。Bootstrap法通过计算机实现重抽样,实现对小样本进行扩容进而转化为样本量充足的问题,将扩容样本的统计特性作为Bayes先验分布超参数的信息是完全可以的,因此采用Bootstrap法获取Bayes先验分布信息。传统的Bootstrap虽然实现了对参考样本的扩容处理,但再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果准确率低,存在一定风险,本专利技术针对这一问题对Bootstrap法进行改进。
技术实现思路
本专利技术的目的是为了解决传统的Bootstrap方法再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果准确率低,存在一定风险的问题,提出一种基于统计分析的样本数据模型验证方法。一种基于统计分析的样本数据模型验证方法具体过程为:步骤一、对参考样本和仿真样本进行正态性检验,若参考样本和仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析参考样本和仿真样本的累积概率分布相似性程度;所述参考样本为真实物理系统实验数据;所述仿真样本为与真实物理系统相对应的仿真模型获得的实验数据;所述非参数检验法包括K-S检验,符号秩检验,游程检验;步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:步骤2.1:当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;步骤2.2:当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;步骤2.3:当参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计参考样本均值后验估计值和参考样本方差后验估计值步骤2.4、采用步骤2.3得到的参考样本均值后验估计值和方差后验估计值分别对步骤一的仿真样本进行单正态总体参数检验,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;步骤2.5:当参考样本容量n<3时,不进行模型验证。本专利技术的有益效果为:本专利技术公开了一种基于统计分析的小样本数据模型验证方法,针对不同容量的少量参考样本进行一致性分析,提出一种基于统计分析的小样本数据模型验证框架,适用于解决不同容量的模型验证问题;针对现有模型验证方法无法解决特小参考样本的一致性分析问题,提出一种改进Bootstrap法,适用于解决参考样本容量小的模型验证问题。本专利技术的方法首先对仿真模型实验获得的仿真样本与真实物理系统实验获得的参考样本进行正态性检验,在样本服从非正态分布的情况下,采用非参数检验方法对参考样本和仿真样本的分布进行拟合检验;在样本服从正态分布的情况下,采用参数检验方法。对于参数检验,若参考样本数量大于10个,选取合适的两总体参数检验法对参考样本与仿真样本的均值和方差进行一致性检验。若参考样本数量小于等于10个,利用改进Bootstrap法对参考样本进行扩容,获取再生样本;利用再生样本,估计Bayes先验分布超参数,进而利用Bayes参数估计法求出参考样本的均值和方差的后验估计值;最后采用单总体的均值和方差检验,分析仿真样本和参考样本统计特性(均值,方差)的一致性。此外,本专利技术提出的改进Bootstrap方法有利于提高参数估计的精度,扩展再生样本的范围,提高模型验证结果的正确性。本专利技术提出改进的Bootstrap法可以解决传统Bootstrap法生成的再生样本局限在原始样本范围内,易偏离真实分布等问题,不仅扩展了再生样本的范围,且在某种程度上提高了参数估计的准确率;同时证明了本专利技术提出的基于统计分析的小样本数据模型验证方法处理参考数据为小样本的模型验证问题是有效的。采用经典统计方法、传统Bootstrap和改进Bootstrap法估计的误差分别为0.3173、0.3165、0.3133。分析表1中结果可知,在小样本情况下,直接利用经典统计方法进行估计的结果误差较大,其优势不再明显;采用传统取样法的Bootstrap法进行参数估计的精度有了一定提高;而采用改进的Bootstrap法求得的参数精度比起前者又有所提高,改进Bootstrap法求得的均值的估计值最接近真实值,可见改进的Bootstrap法在一定程度上提高了参数估计的准确率。附图说明图1为本专利技术提出的基于统计分析的小样本数据模型验证方法流程图;图2为本专利技术实例中传统Bootstrap和改进Bootstrap获得的样本均值的箱线图;图3为本专利技术实例中脱靶量数据参考样本和仿真样本累积经验分布函数图,F(x)为参考样本或仿真样本的累积概率,x为参考样本或仿真样本的值,EmpiricalCDF为累积经验分布函数。具体实施方式具体实施方式一:本实施方式的一种基于统计分析的样本数据模型验证方法具体过程为:步骤一、对参考样本和仿真样本进行正态性检验,若参考样本和仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析参考样本和仿真样本的累积概率分布相似性程度;所述参考样本为真实物理系统实验数据,例如飞行器系统获得的实验数据;所述仿真样本为与真实物理系统相对应的仿真模型获得的实验数据,例如飞行器仿真模型实验数据;所述非参数检验法包括K-S检验,符号秩检验,游程检验;步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:步骤2.1:当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;步骤2.2:当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;步骤2.3:当参考样本容量3<n≤1本文档来自技高网
...

【技术保护点】
1.一种基于统计分析的小样本数据模型验证方法,其特征在于:所述方法具体过程为:步骤一、对参考样本和仿真样本进行正态性检验,若参考样本和仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析参考样本和仿真样本的累积概率分布相似性程度;所述参考样本为真实物理系统实验数据;所述仿真样本为与真实物理系统相对应的仿真模型获得的实验数据;步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:步骤2.1:当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;步骤2.2:当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;步骤2.3:当参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计参考样本均值后验估计值

【技术特征摘要】
1.一种基于统计分析的小样本数据模型验证方法,其特征在于:所述方法具体过程为:步骤一、对参考样本和仿真样本进行正态性检验,若参考样本和仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析参考样本和仿真样本的累积概率分布相似性程度;所述参考样本为真实物理系统实验数据;所述仿真样本为与真实物理系统相对应的仿真模型获得的实验数据;步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:步骤2.1:当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;步骤2.2:当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;步骤2.3:当参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计参考样本均值后验估计值和参考样本方差后验估计值步骤2.4、采用步骤2.3得到的参考样本均值后验估计值和方差后验估计值分别对步骤一的仿真样本进行单正态总体参数检验,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;步骤2.5:当参考样本容量n<3时,不进行模型验证。2.根据权利要求1所述一种基于统计分析的小样本数据模型验证方法,其特征在于:所述步骤一中对参考样本和仿真样本进行正态性检验,具体过程为:所述正态性检验采用W检验法,W检验法选取指标量为:其中,n为样本容量,当n为偶数时,k=n/2;当n为奇数时,k=(n-1)/2;X(1)≤X(2)≤...X(n)为样本升序排列;ak为计算系数;W检验法的拒绝域为W≤Wa,Wa为α分位数,α为显著性水平。3.根据权利要求2所述一种基于统计分析的小样本数据模型验证方法,其特征在于:所述步骤2.1中当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;具体过程为:设参考样本X=(X1,…,Xn)服从正态分布N(μ1,σ12),仿真样本Y=(Y1,…,Ym)服从正态总体N(μ2,σ22);(X1,…,Xn)为n次真实物理系统实验数据,即参考样本;(Y1,…,Ym)为m次仿真模型输出的实验数据,即仿真样本;n为参考样本容量,m为仿真样本容量;m,n取值均为正整数;μ1为真实物理系统实验数据总体的均值,σ12为真实物理系统实验数据总体的方差;μ2为仿真模型数据总体的均值,σ22为仿真模型数据总体的方差;分别表示μ1和μ2的无偏估计,S12,S22分别表示σ12和σ22的无偏估计,其中两正态总体均值的U检验法计算过程如下:设σ12,σ22均为已知,原假设H0:μ1=μ2,备择假设H1:μ1≠μ2,检验统计量的公式如下:在检验水平α条件下的拒绝域为:u=(-∞,-uα/2]∪[uα/2,+∞);其中uα/2为两正态总体均值的U检验拒绝域的临界点;已知检验水平α,查正态分布表得到uα/2;若检验统计量u落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的。4.根据权利要求3所述一种基于统计分析的小样本数据模型验证方法,其特征在于:所述步骤2.2中当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;具体过程为:两正态总体均值的t检验:原假设H0:μ1=μ2,备择假设H1:μ1≠μ2,检验统计量的计算公式如下:在检验水平α条件下的拒绝域为:t=(-∞,-tα/2]∪[tα/2,+∞)其中tα/2为t检验拒绝域的临界点;已知检验水平α,查t分布表得到tα/2;若检验统计量t落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的;两正态总体方差的F检验:原假设H0:σ12=σ22,备择假设H1:σ12≠σ22,检验统计量的计算公式如下:在检验水平α条件下的拒绝域为:F...

【专利技术属性】
技术研发人员:马萍周玉臣宋婷方可杨明
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1