一种用于评估统计值变异性的方法技术

技术编号:20160412 阅读:33 留言:0更新日期:2019-01-19 00:13
本发明专利技术属于数据处理的技术领域,公开了一种用于评估统计值变异性的方法,包括以下步骤:步骤一、以样本数据X={x1,x2,…,xn}对应的概率密度曲线为基础,建立n个误差圆,其中,n表示样本数据的总个数;步骤二、从每个所述误差圆内均随机抽取w个扩充数据,建立包含n个扩充数据的自助样本;步骤三、利用Bootstrap自助法对所述自助样本进行样本数据的变异性评估。本发明专利技术从误差圆中随机抽取的自助样本的数据具有普遍性,并且避免集中误差圆内某一区域的抽取,减小了对再抽样分布不均的影响,使得到的扩充样本更加合理,且精确可信,进而促使通过Bootstrap方法计算得到的结果更加精确,更加逼近实际状况。

【技术实现步骤摘要】
一种用于评估统计值变异性的方法
本专利技术属于数据处理的
,具体涉及一种用于评估统计值变异性的方法以及一种用于Bootstrap自助法的自助样本的获取方法。
技术介绍
在工程应用和科学研究中,通常采用一定的仪器、工具、传感器或其他手段对各种类型的物理量进行观测,从而获得大量的观测数据。由于外界条件、测量仪器和和观测人员等因素的影响,观测数据与真实值存在一定的误差,考虑各种误差带来的影响,得到更加精确合理的结果对工程应用和科学研究有着重大的意义。Bootstrap方法,又称自助法是美国Stanford大学统计系教授Efron提出的一种新的统计推断方法,是一种只依赖于给定的观测信息,而不需要其它假设和增加新的观测的统计推断方法。在科学研究中,它可以大大增强常用的估计、推断等方法的效能,在工程实践中,它也成为克服数据有限性等困难的一种有效手段,如在导弹的命中圆域的概率估计、图像处理以及其他许多应用领域都取得了成功。但是Bootstrap方法也有不足之处,如由于自助样本只能由原样本生成,自助样本极有可能非常相似于原样本,尤其当样本容量较小时更为明显,容易导致计算结果极大偏离真实分布,因此,有必要对现有Bootstrap方法进行改进和优化,以提高其准确度。
技术实现思路
本专利技术提供了一种用于Bootstrap自助法的自助样本的获取方法以及用于评估统计值变异性的方法,解决了现在现有Bootstrap方法的自助样本只能由原样本生成,容易导致计算结果极大偏离真实分布等问题。本专利技术可通过以下技术方案实现:一种用于评估统计值变异性的方法,包括以下步骤:步骤一、以样本数据X={x1,x2,…,xn}对应的概率密度曲线为基础,建立n个误差圆,其中,n表示样本数据的总个数;步骤二、从每个所述误差圆内均随机抽取w个扩充数据,建立包含n个扩充数据的自助样本;步骤三、利用Bootstrap自助法对所述自助样本进行样本数据的变异性评估。进一步,所述误差圆以样本数据X={x1,x2,…,xn}对应其概率密度曲线上的点为圆心,以所述样本数据的抽样极限误差为最大半径。进一步,所述n个扩充数据来自全部或者部分的误差圆。进一步,将所述误差圆的水平直径等分成多份,对应地所述误差圆分成多个部分,从每个所述部分按照各自的预定概率随机抽取多个扩充数据,共同组成w个扩充数据。进一步,每个所述部分对应的预定概率通过所述部分的面积与整个误差圆的面积的比值计算得到。进一步,将所述误差圆的水平直径等分成五份,对应地所述误差圆分成五个部分,每个所述部分对应的预定概率分别为0.142、0.232、0.252、0.232、0.142。一种用于Bootstrap自助法的自助样本的获取方法,自助样本的数据来自原来样本和扩充样本、或者仅是扩充样本,所述扩充样本的数据属于原来样本的数据的抽样极限误差之内的数据,但不属于原来样本。进一步,获取所述扩充样本的方法包括以下步骤:步骤ⅰ、以原来样本X={x1,x2,…,xn}对应的概率密度曲线为基础,建立n个误差圆,其中,n表示原来样本的数据的总个数;步骤ⅱ、从每个所述误差圆内随机抽取多个扩充数据,所述扩充数据不属于原来样本,建立包含n个扩充数据的扩充样本。进一步,所述误差圆以原来样本的数据X={x1,x2,…,xn}对应其概率密度曲线上的点为圆心,以所述原来样本数据的抽样极限误差为最大半径,所述n个扩充数据来自全部或者部分的误差圆。进一步,将所述误差圆的水平直径等分成多份,对应地所述误差圆被分成多个部分,从每个所述部分按照各自的预定概率随机抽取多个扩充数据,每个所述部分对应的预定概率通过所述部分的面积与整个误差圆的面积的比值计算得到。本专利技术有益的技术效果在于:基于样本数据的概率分布曲线和抽样极限误差,建立合理的误差圆模型,使在误差圆中随机抽取的扩充样本的数据具有普遍性,并且利用水平直径等分的方法对误差圆进行分割,计算扩充样本的数据在误差圆内的分布概率,避免集中误差圆内某一区域的抽取,减小了对再抽样分布不均的影响,使得到的扩充样本更加合理,且精确可信,进而促使通过Bootstrap方法计算得到的结果更加精确,更加逼近实际状况。另外,将本专利技术的方法用于产品开发过程中,在设计阶段考虑误差带来的影响,这样可以对设计方案进行有效优化,保证产品质量,提高产品的可靠性,同时也可以降低研发成本。附图说明图1是本专利技术的总体流程图;图2是本专利技术的误差圆的分割划分示意图;图3是本专利技术的表面粗糙度样本对应的概率密度曲线示意图;图4是利用本专利技术的方法对表面粗糙度样本数据的变异性评估的结果示意图,其中,实线表示表面粗糙度样本数据的均值,虚线表示表面粗糙度样本数据的置信区间的上限,点划线表示表面粗糙度样本数据的置信区间的下限;图5是利用本专利技术的方法对表面粗糙度样本数据的变异性评估,其误差圆半评估结果的影响示意图;图6是利用本专利技术的方法对表面粗糙度因数样本数据的变异性评估的结果示意图,其中,实线表示表面粗糙度因数样本数据的均值,虚线表示表面粗糙度因数样本数据的置信区间的上限,点划线表示表面粗糙度因数样本数据的置信区间的下限;图7是利用本专利技术的方法对表面粗糙度因数样本数据的变异性评估,其误差圆半评估结果的影响示意图;图8是利用本专利技术的方法对S-N曲线的截距loga样本数据的变异性评估的结果示意图,其中,实线表示S-N曲线的截距loga样本数据的均值,虚线表示S-N曲线的截距loga样本数据的置信区间的上限,点划线表示S-N曲线的截距loga样本数据的置信区间的下限;图9是利用本专利技术的方法对S-N曲线的截距loga样本数据的变异性评估,其误差圆半评估结果的影响示意图;图10是利用本专利技术的方法和单独使用Bootstrap方法,对型号为AISI8630M低合金钢的疲劳寿命预测影响结果的对比示意图;图11是对图10的对比示意图的局部放大图,其中,点线表示利用本专利技术的方法得到S-N曲线的截距loga样本数据的均值计算得到的S-N曲线,虚线表示利用本专利技术的方法得到S-N曲线的截距loga样本数据的置信区间的上下限计算得到的S-N曲线,实线表示利用单独使用Bootstrap方法得到S-N曲线的截距loga样本数据的置信区间的上下限计算得到的S-N曲线。具体实施方式下面结合附图及较佳实施例详细说明本专利技术的具体实施方式。由于在工程应用和科学研究过程中,得到的观测数据不可避免的产生误差,考虑各种误差带来的影响,得到更加精确合理的结果对工程应用和科学研究有着重大的意义。Bootstrap方法,又称自助法是美国Stanford大学统计系教授Efron提出的一种新的统计推断方法,是一种只依赖于给定的观测信息,而不需要其它假设和增加新的观测的统计推断方法,但是,由于自助样本只能由原样本生成,容易导致计算结果极大偏离真实分布,参见附图1,本专利技术提供了一种用于Bootstrap自助法的自助样本的获取方法,该自助样本的数据来自原来样本和扩充样本、或者仅是扩充样本,其扩充样本的数据属于原来样本的数据的抽样极限误差之内的数据,但不属于原来样本。获取上述扩充样本的方法包括以下步骤:步骤一、以原来样本X={x1,x2,…,xn}对应的概率密度曲线为基础,建立n个误差圆,其中,n表示原来样本的数据本文档来自技高网...

【技术保护点】
1.一种用于评估统计值变异性的方法,其特征在于包括以下步骤:步骤一、以样本数据X={x1,x2,…,xn}对应的概率密度曲线为基础,建立n个误差圆,其中,n表示样本数据的总个数;步骤二、从每个所述误差圆内均随机抽取w个扩充数据,建立包含n个扩充数据的自助样本;步骤三、利用Bootstrap自助法对所述自助样本进行样本数据的变异性评估。

【技术特征摘要】
1.一种用于评估统计值变异性的方法,其特征在于包括以下步骤:步骤一、以样本数据X={x1,x2,…,xn}对应的概率密度曲线为基础,建立n个误差圆,其中,n表示样本数据的总个数;步骤二、从每个所述误差圆内均随机抽取w个扩充数据,建立包含n个扩充数据的自助样本;步骤三、利用Bootstrap自助法对所述自助样本进行样本数据的变异性评估。2.根据权利要求1所述的用于评估统计值变异性的方法,其特征在于:所述误差圆以样本数据X={x1,x2,…,xn}对应其概率密度曲线上的点为圆心,以所述样本数据的抽样极限误差为最大半径。3.根据权利要求1所述的用于评估统计值变异性的方法,其特征在于:所述n个扩充数据来自全部或者部分的误差圆。4.根据权利要求1所述的用于评估统计值变异性的方法,其特征在于:将所述误差圆的水平直径等分成多份,对应地所述误差圆分成多个部分,从每个所述部分按照各自的预定概率随机抽取多个扩充数据,共同组成w个扩充数据。5.根据权利要求4所述的用于评估统计值变异性的方法,其特征在于:每个所述部分对应的预定概率通过所述部分的面积与整个误差圆的面积的比值计算得到。6.根据权利要求5所述的用于评估统计值变异性的方法,其特征在于:将所述误差圆的水平直径等分成五份,对应地所述误差圆分成五个部分,每个所述部分对应的预定概率分别为0.142、0....

【专利技术属性】
技术研发人员:刘新田王海杰吴悫
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1