小批量误差数据的自动校正与分布拟合方法技术

技术编号:35897284 阅读:62 留言:0更新日期:2022-12-10 10:31
本发明专利技术属于航空生产领域,具体涉及一种基于Anderson

【技术实现步骤摘要】
小批量误差数据的自动校正与分布拟合方法


[0001]本专利技术属于航空生产领域,具体涉及一种基于Anderson

Darling检验和循环估计的小批量误差数据的自动校正与分布拟合方法。

技术介绍

[0002]作为工业体系的顶端,航空工业对产品质量的把控十分严格,产品外观测量值与理论值的误差数据的分布特征反应了制造过程的质量信息,是实现统计过程控制、优化和生产管理的基本依据。然而,由于测量方式不当和操作人员更换等因素,误差数据的记录值往往会偏移真实值,这尤其给小批量误差数据的统计分布推断带来了更大的挑战。为此,准确地对小批量误差数据进行自动校正,分析误差数据的统计分布特征具有重要意义。
[0003]目前,大部分文献如:《多变量统计过程控制在反浮选生产过程中的应用》、《融合SCADA数据的风电机组齿轮箱状态评估》、《平整过程在线监测和统计过程控制的研究与实践》和《基于典型数据集的数据预处理方法对比分析》,这些文件公开的内容主要都是在进行统计过程控制之前,会基于4分位法剔除异常数据,即将超出上下4分位数的数据从样本数据中剔除。这种方法适用于大样本的情况,对于小批量过程而言,样本量的进一步减少对分布的拟合不利,一种更合理的方法是通过数据校正的方法找到数据的真实值,从而准确获取数据的统计分布特征。然而,目前数据的预处理方法只局限于数据的正态化、标准化和归一化,其中正态化方法包括Box

Cox转换和Johnson变换等,可以改善数据的正态性和对称性;标准化和归一化方法旨在通过数学运算将数据无量纲化。这些方法只适用于服从正态分布的情况,而现实的制造误差数据还可能服从截断正态分布、伽马分布或t分布等。

技术实现思路

[0004]为了克服上述现有技术存在的问题,本专利技术提出了一种基于Anderson

Darling检验和循环估计的小批量误差数据的自动校正与分布拟合方法,构建不同连续分布(正态分布、截断正态分布、伽马分布、t分布)下的Anderson

Darling检验统计量,根据不同分布下检验统计量的p值确定误差数据的统计分布类型,基于该分布类型,采用循环估计将数据集随机划分为历史集和观测集,对观测集中的数据选取总体分布拟合p值最高的校正方式,循环选择不同的数据作为观测集,直至每个数据都得到了最优校正或p值达到收敛,完成对数据的自动校正。
[0005]为了实现上述专利技术,提供的技术方案如下:
[0006]小批量误差数据的自动校正与分布拟合方法,
[0007]具体包括以下步骤:
[0008]步骤1:从记录表中读取某小批量生产产品同一特征的年度误差数据;
[0009]步骤2:对误差数据进行异常数据的清除,得到初始数据集D={x
i
,i=1,

,n};
[0010]步骤3:构建了正态分布、截断正态分布、伽马分布、t分布四个连续分布下的Anderson

Darling检验统计量;
[0011]步骤4:根据Anderson

Darling检验量A2的极限分布,构建了正态分布、截断正态分布、伽马分布、t分布四个连续分布下的Anderson

Darling检验统计量的p值,通过比较p值大小来确定误差数据的统计分布类型,p值越大表明分布拟合优度越高,即确定的分布类型为j
*
=max
j=1,2,3,4
p
j

[0012]步骤5:基于得到的分布类型j
*
,采用循环估计对每个数据进行自动校正;预先给定一个补偿值δ,并将数据集D随机打乱,划分为历史集D1和观测集D2;规定数据的校正策略,进行不停迭代,得到最终的校正数据;
[0013]步骤6:设定不同的补偿值δ重复步骤5,以找到最优的补偿值;在该补偿值下,得到最优校正后的数据集D

并采用极大似然估计求解分布j
*
的参数。
[0014]进一步地,所述步骤3中,为衡量真实数据分布与理论分布的拟合优度,构建了正态分布、截断正态分布、伽马分布、t分布四个连续分布下的Anderson

Darling检验统计量如下:
[0015][0016]式中:代表第j个假设分布的Anderson

Darling检验统计量,用于衡量假设分布与数据真实分布的差距,越小表明真实数据越贴近假设的分布,n为样本的个数,F
D
(x)为样本的分布函数;
[0017]正态分布、截断正态分布、伽马分布、t分布,这四种分布最贴合航空制造领域中误差数据的分布类型,F
j
(x)为第j个假设分布的理论分布函数:
[0018][0019][0020][0021][0022]式中:Γ代表伽马函数,μ,σ,a,b,α,β,v代表与分布相关的分布系数。
[0023]进一步地,所述步骤4的具体方法如下:
[0024]根据Anderson

Darl ing检验量A2的极限分布,通过的极限分布,通过构建四个分布的p值如下:
[0025][0026]p
j
代表第j个假设分布的Anderson

Darling检验统计量的p值,p值是介于0到1之间的一个概率值,可以定性且直观的表示真实数据分布与理论分布的拟合优度,p值越大表
明越小,分布拟合优度越高,因此,可以通过比较p值大小来确定误差数据的统计分布类型,即确定的分布类型为j
*
=max
j=1,2,3,4
p
j

[0027]进一步地,所述步骤5基于得到的分布类型j
*
,采用循环估计对每个数据进行自动校正。
[0028]再进一步地,所述步骤5具体包括以下步骤:
[0029]步骤501:预先给定一个补偿值δ,建议该补偿值设置为数据记录精度的整数倍;
[0030]步骤502:将第r

1次循环校正后的数据集D
r
‑1随机打乱,按照8:2的比例将其划分为历史集和观测集
[0031]步骤503:数据校正策略有三种:减补偿值保持不变和加补偿值对观测集中的每个数据,将该数据与历史集合并为一个新的数据集,计算在分布类型j
*
下三种校正策略的p值,分别记为选取p值最高的校正方式对x进行校正,例如,若则对观测集中的其他所有数据重复该步骤,最终得到校正后的观测集
[0032]步骤504:记第r次循环校正后的数据集为及其p值为p
r

[0033]步骤505:比较p
r
与p
r
‑1的大小,若差别忽略不计(p
r

p
r
‑1&l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.小批量误差数据的自动校正与分布拟合方法,其特征在于:具体包括以下步骤:步骤1:从记录表中读取某小批量生产产品同一特征的年度误差数据;步骤2:对误差数据进行异常数据的清除,得到初始数据集D={x
i
,i=1,

,n};步骤3:构建了正态分布、截断正态分布、伽马分布、t分布四个连续分布下的Anderson

Darling检验统计量;步骤4:根据Anderson

Darling检验量A2的极限分布,构建了正态分布、截断正态分布、伽马分布、t分布四个连续分布下的Anderson

Darling检验统计量的p值,通过比较p值大小来确定误差数据的统计分布类型,p值越大表明分布拟合优度越高,即确定的分布类型为j
*
=max
j=1,2,3,4
p
j
;步骤5:基于得到的分布类型j
*
,采用循环估计对每个数据进行自动校正;预先给定一个补偿值δ,并将数据集D随机打乱,划分为历史集D1和观测集D2;规定数据的校正策略,进行不停迭代,得到最终的校正数据;步骤6:设定不同的补偿值δ重复步骤5,以找到最优的补偿值;在该补偿值下,得到最优校正后的数据集D

并采用极大似然估计求解分布j
*
的参数。2.根据权利要去1所述的小批量误差数据的自动校正与分布拟合方法,其特征在于:所述步骤3中,为衡量真实数据分布与理论分布的拟合优度,构建了正态分布、截断正态分布、伽马分布、t分布四个连续分布下的Anderson

Darling检验统计量如下:式中:代表第j个假设分布的Anderson

Darling检验统计量,用于衡量假设分布与数据真实分布的差距,越小表明真实数据越贴近假设的分布,n为样本的个数,F
D
(x)为样本的分布函数;正态分布、截断正态分布、伽马分布、t分布,这四种分布最贴合航空制造领域中误差数据的分布类型,F
j
(x)为第j个假设分布的理论分布函数:分布的理论分布函数:分布的理论分布函数...

【专利技术属性】
技术研发人员:曾静文李晓蕊杨扬邓晓春郭双明樊娜娜陈氖华
申请(专利权)人:成都飞机工业集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1