本发明专利技术公开了一种构造缺失样本概率密度函数估计量的方法,其主要步骤如下:(1)利用小波基函数对真实概率密度函数进行展开;(2)利用逆概率加权法构造小波系数的无偏估计量;(3)利用代入估计法建立概率密度函数的线性小波估计量;(4)选取硬门限函数构造概率密度函数非线性小波估计量;(5)证明非线性小波估计量的最优收敛速度。最后通过仿真模拟定量分析非线性小波估计量的有限样本表现的优良性。本发明专利技术具有可以估计不连续未知函数、弥补缺失数据提高样本信息有效性以及加快估计量收敛速度的优点。
A method of constructing estimators of probability density function of missing samples
【技术实现步骤摘要】
一种构造缺失样本概率密度函数估计量的方法
本专利技术涉及缺失样本构造
,特指一种构造缺失样本概率密度函数非线性小波估计量的方法,主要涉及逆概率加权的缺失数据弥补方法和非线性小波估计方法。
技术介绍
在工程学里每个试验都会产生大量数据,充分挖掘这些数据隐含的信息,对诊断故障、检测信号、提高工作效率具有重大意义。为了分析人们关心现象的发展规律,掌握事态的发展过程,常用的方法是构造变量或是过程的概率密度函数。然而,在实际应用中,变量的概率密度函数是未知的,需要对其进行估计。常用的估计方法有:参数方法和非参数方法。参数方法需要假定变量的分布是已知的(如正态分布),但是在实际研究中不能任意假定概率密度函数的形式。然而,非参数方法不需要设定变量的分布形式。核估计方法是估计概率密度函数最经典的一种非参数方法。概率密度函数核估计量的积分均方误差MISE~C1(nh)-1+C2h2r,其中C1和C2依赖核函数和概率密度函数,r是核函数的阶。可以看出,经典的核估计方法要求被估计函数是光滑的,并且具有r阶导数。因此,有学者提出,如果概率密度函数不连续或者存在有限个间断点,该如何构造估计量?小波分析起源于Fourier热传导解析理论,并且得到迅速发展。由于小波分析具有良好的时频性和多分辨率性,优于傅里叶变换,成功应用在信号处理、图像处理、机械故障诊断等领域。尤其是门限函数和正交基的引入,使得小波分析可以有效地处理被估计函数是不连续的情况。在工程试验中,突发事件会导致部分信号间断,传感器发生故障会导致部分数据采集不到。这些情况都会使得收集到的数据缺失。处理缺失数据最简单的方法是把不完整的数据去掉,用数据中完整的部分进行统计推断,但是当缺失机制不是完全随机缺失时,这种方法容易产生偏差。本专利技术针对现有技术在弥补缺失数据存在的不足,提出一种构造缺失样本概率密度函数估计量的方法。
技术实现思路
针对现有的缺失数据处理方法无法利用缺失数据的信息构造概率密度函数估计量的不足,以及经典核估计方法无法估计不光滑概率密度函数的缺陷,本专利技术基于逆概率加权法提出一种构造概率密度函数估计量的方法。本专利技术具体实施步骤如下:(1)、利用小波基函数和小波系数将真实概率密度函数展开成小波形式;假设{Xi,1≤i≤n}是d维协变量,Yi是受协变量Xi影响的反应变量,并且具有概率密度函数f(y),对任意的f(y)∈L2(R)空间,都可以展开成如下小波形式其中,和βkl=<ψkl,f〉是小波系数,构成L2(R)空间的一组正交基。为了研究概率密度函数估计量的收敛性,需要给k一个截断k1,于是可以将概率密度函数展开成如下形式本专利技术的概率密度函数f(y)属于空间它是一个既包含光滑函数的Sobelev空间,又包含空间显著不均匀的函数类。如果当且仅当本专利技术考虑的是其中M,L是常数,(2)、利用逆概率加权法构造小波系数的无偏估计量;令δi表示缺失指标,所有Xi可被观测,Yi随机缺失。当Yi可被观测时,δi=1;否则δi=0。因此,可观测的样本是{Xi,Yi,δi,1≤i≤n}。令π(Xi)=P(Xi|Yi,δi=1)=P(Xi|δi=1)表示Yi随机缺失的概率,表明Yi是否缺失与自变量Xi无关,只与自身取值有关。这种假设的优点是,在其他变量都已知的情况下,缺失的变量中并不包含与变量缺失概率有关的信息,变量缺失的概率可以从其他变量中推导出来,在很多实际应用中,随机缺失机制是合理的。本专利技术基于随机缺失机制和逆概率加权法,利用条件期望和小波系数的定义式,可得然而,在实际应用中,函数π(·)是未知的,需要给出它的估计量。构造函数π(·)的估计量可以使用参数和非参数两种方法,本专利技术采用Nadaraya-Watson核估计量,即其中,Ω(·)是核函数,0<h→0表示窗宽。于是可以构造小波系数的无偏估计量,逆概率加权法是对已有处理缺失数据方法的改进,该方法对每一个完整的观测值赋予一个权重,这个权重是变量不发生缺失的概率的倒数,当缺失概率计算正确时,该方法不仅可以消除上述方法带来的偏差,而且可以简化计算过程。(3)、利用插入法建立概率密度函数线性小波估计量;将步骤(2)中构造的小波系数无偏估计量和分别代替(2)式中的小波系数αl和βkl,于是本专利技术可以建立概率密度函数的线性小波估计量(4)、选取硬门限函数构造概率密度函数非线性小波估计量;适当的门限函数不仅可以处理被估计函数不连续的情况,而且可以有效地去噪。本专利技术选取硬门限函数代替(3)式中的于是本专利技术可以构造概率密度函数的非线性小波估计量(5)、证明概率密度函数非线性小波估计量可以达到最优收敛速度。如果概率密度函数属于空间时,概率密度函数的非线性小波估计量可以最优收敛速度,即Donoho等(1996)证明了完全数据下概率密度函数f(x)线性小波估计量的最优收敛速度是其中当p>2时,有表明概率密度函数非线性小波估计量的收敛速度比线性小波估计量的收敛速度快。步骤(5)中,证明概率密度函数的非线性小波估计量可以达到最优收敛速度包括以下步骤:(5.1)、利用小波基函数和ψkl(·)的正则性,将概率密度函数非线性小波估计量的均方误差展开成四项;(5.2)、证明非线性小波估计量均方误差展开式第一项的收敛速度;(5.3)、证明非线性小波估计量均方误差展开式第二项的收敛速度;(5.4)、证明非线性小波估计量均方误差展开式第三项和第四项的收敛速度。本专利技术的技术思路是:通过本专利技术提出的方法构造的概率密度函数估计量以非线性小波估计方法为依据,以逆概率加权法为手段,有利于获取更快的收敛速度和更完整的样本信息。本专利技术的优点如下:(1)本专利技术构造的概率密度函数非线性小波估计量不仅可以估计光滑的函数,而且可以估计不光滑的或是存在有限个间断点的函数。(2)本专利技术构造的概率密度函数非线性小波估计量的收敛速度比线性小波估计量的收敛速度要快。(3)本专利技术采用的逆概率加权法弥补了缺失数据的不完整性,减少缺失机制产生的偏差,提高了样本信息的有效性。附图说明图1本专利技术具体实施流程图。图2非线性小波估计量最优收敛速度具体实施流程图。图3仿真模拟中反应变量的概率密度函数曲线图。图4估计量的平方误差在样本量n=30条件下的盒形图。图5估计量的平方误差在样本量n=60条件下的盒形图。图6估计量的平方误差在数据缺失率25%条件下的盒形图。图7估计量的平方误差在数据缺失率40%条件下的盒形图。具体实施方式参照附图,进一步说明本专利技术:用于构造缺失样本概率密度函数估计量的方法,包括以下步骤:(1)、利用小波基函数和小波系数将真实概率密度函数展开成小波形本文档来自技高网...
【技术保护点】
1.一种构造缺失样本概率密度函数估计量的方法,其特征在于:包括以下步骤:/n(1)、利用小波基函数和小波系数将真实概率密度函数展开成小波形式;/n(2)、利用逆概率加权法构造小波系数的无偏估计量;/n(3)、利用插入法建立概率密度函数的线性小波估计量;/n(4)、选取硬门限函数构造概率密度函数的非线性小波估计量;/n(5)、证明概率密度函数的非线性小波估计量可以达到最优收敛速度。/n
【技术特征摘要】
1.一种构造缺失样本概率密度函数估计量的方法,其特征在于:包括以下步骤:
(1)、利用小波基函数和小波系数将真实概率密度函数展开成小波形式;
(2)、利用逆概率加权法构造小波系数的无偏估计量;
(3)、利用插入法建立概率密度函数的线性小波估计量;
(4)、选取硬门限函数构造概率密度函数的非线性小波估计量;
(5)、证明概率密度函数的非线性小波估计量可以达到最优收敛速度。
2.如权利要求1所述的一种构造缺失样本概率密度函数估计量的方法,其特征在于:步骤(5)中,证明概率密度函数的非线性小波估计量可以达到最优收敛速度包括以下步骤:
(5.1)、利用小波基函数和ψkl(·)的正则性,将概率密度函数非线性小波估计量的均方误差展开成四项;
(5.2)、证明非线性小波估计量均方误差展开式第一项的收敛速度;
(5.3)、证明非线性小波估计量均方误差展开式...
【专利技术属性】
技术研发人员:邹玉叶,顾邦平,
申请(专利权)人:上海海事大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。