含有不可忽略缺失数据的估计方程的稳健估计方法技术

技术编号:13674636 阅读:198 留言:0更新日期:2016-09-08 00:00
本发明专利技术涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法,步骤为:Q(θ,Y,X),在不可忽略缺失数据模型为logistic回归模型时,通过重要重采样算法计算插补的估计方程中包含的条件期望m(θ,x),得到修正的估计方程然后基于修正的估计方程并利用经验似然方法求得估计方程中未知参数θ的稳健经验似然估计。本发明专利技术通过用估计方程插补含缺失数据的估计方程而非插补缺失值的方法以及经验似然法对估计参数进行稳健俺估计,成功避免了非参数核估计方法当协变量的维数较高时产生“维数祸根”的问题,大幅改进了存在不可忽略缺失数据时数据处理的精度,提高了预测准确性。

【技术实现步骤摘要】

本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法
技术介绍
经典的统计方法与理论大都是建立在完全数据分析的基础上,然而在实践中,数据缺失普遍发生在很多实际问题中,如民意调查、市场调研、邮寄问卷调查、社会经济研究、医学研究、观察研究以及其他科学实验中常常会发生缺失数据的问题。在这种情况下,标准的统计方法不能直接应用到这些不完全数据的统计分析。目前对不完全数据的处理大都假设缺失数据机制为可忽略的,常常将带缺失数据的个体删除,只保留带完整数据的个体组成的数据组进行统计分析。然而,这一方法在大部分情况下分析结果都有严重偏差,并且由于一些有缺失数据个体被删除以至产生不必要的信息损失,常常导致无效统计,甚至会得出错误的结论,因此缺失数据有必要考虑为不可忽略。但在不可忽略缺失数据这一假设下的统计分析与理论研究相当困难,目前这方面研究成果很少。近年来,对于不可忽略缺失数据的处理有了一些进展,如极大似然估计EM算法、多重填补方法以及加权估计法等。估计方程方法是统计推断中最为普通但也非常有用的统计推断方法之一,其思想和结果广泛应用于生存分析、生物统计、计量经济及金融计量中。具体地说,考虑q个相互独立的函数构成的q维向量Q(θ,y,x)=(Q1(θ,y,x),…,Qq(θ,y,x))T,其中Qi(θ,y,x),i=1,…,q满足矩约束条件E(Qi(θ,Y,X))=0,i=1,…,q,对某个其中θ0是未知参数θ的真实值,且p≤q,Y和X是s维和d维的随机变量。在缺失数据下,关于估计方程方法的研究还比较少。令是来自联合分布函数F(y,x)的独立同分布的随机样本,其中总是可以观测的,但是的值是缺失的。为了简化,我们假设Yi的缺失分量是相同的。令δi是Yi的响应示性函数,如果Yi可观测,则δi=1,否则δi=0。现存的方法是通过数据的插补方法来修正估计方程,比如通过插补技术构造估计方程其中m(θ,x)=E(Q(θ,Y,X)|X=x)是未知的,需要给出其估计。在随机缺失数据下,一般仅利用观测到的数据从m1(θ,x)=E(Q(θ,Y,X)|X=x,δ=1)出发得到m(θ,x)的一个非参数核估计当缺失数据是不可忽略缺失时,现存的做法是基于指数偏斜模型从m0(θ,x)=E(Q(θ,Y,X)|X=x,δ=0)出发构建m(θ,x)的一个非参数核估计但无论是在随机缺失还是不可忽略缺失下,条件期望m(θ,x)的估计都用到了非参数核估计。而非参数核估计存在一个显然的问题:如果协变量X的维数太高,将有“维数祸根”问题。为了解决上述问题,亟需建立一种能够避免非参数核估计的新的稳健方法,在保证参数估计精度的同时也能适应更多数据环境。
技术实现思路
本专利技术的目的在于针对现有关于不可忽略缺失数据的估计方程的不稳健且难以处理存在高维协变量的上述不足,提供了一种含有不可忽略缺失数据的估计方程的稳健估计方法,该方法避免了利用非参数核估计计算条件期望的问题,不会出现“维数祸根”现象,可应用于存在高维协变量时含有不可忽略缺失数据的估计方程的估计问题。根据本专利技术一实施例,提供了一种含有不可忽略缺失数据的估计方程的稳健估计方法,含有以下步骤:(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系,确定上述两者之间关系的具体步骤为:(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的,而的值是缺失的;(2)引入响应变量Yi的示性函数δi,即如果Yi可观测,则δi=1,否则δi=0,且满足对任意的i≠j,假设δi和δj是独立的;(3)令f(y|x,δ=1)表示给定X=x和δ=1下Y的条件密度函数,f(y|x,δ=0)表示给定X=x和δ=0下Y的条件密度函数;(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为: P ( δ i = 1 | X i , Y i ) = π ( X i , Y i ) = exp ( g ( X i ) + φY i ) 1 + exp ( g ( X i ) + φ Y ) - - - ( 1 ) ]]>其中,g(·)为未知函数,φ是未知的参数,参数φ决定数据是随机缺失还是非随机缺失;(5)引入指标参数向量β,假设f(y|x,δ=1)的一个参数模型为f(y|x,δ=1;β),用来表示完全数据下响应变量的条件密度函数;(6)在假设的logistic回归模型下,f(y|x,δ=0)的一个参数模型为f(y|x,δ=0;β,φ),用来表示含有不可忽略缺失数据下响应变量的条件密度函数,得到含有不可忽略缺失数据时响应变量的条件密度函数f(y|x,δ=0;β,φ)与完全数据时响应变量的条件密度函数f(y|x,δ=1;β)之间满足的指数偏斜模型,该指数偏斜模型表示为: f ( y | x , δ = 0 ; β , φ ) = f ( y | x , δ = 1 ; β ) × exp ( - φ y ) 本文档来自技高网
...

【技术保护点】
一种含有不可忽略缺失数据的估计方程的稳健估计方法,其特征在于:含有以下步骤:(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系,确定上述两者之间关系的具体步骤为:(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的,而的值是缺失的;(2)引入响应变量Yi的示性函数δi,即如果Yi可观测,则δi=1,否则δi=0,且满足对任意的i≠j,假设δi和δj是独立的;(3)令f(y|x,δ=1)表示给定X=x和δ=1下Y的条件密度函数,f(y|x,δ=0)表示给定X=x和δ=0下Y的条件密度函数;(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为:P(δi=1|Xi,Yi)=π(Xi,Yi)=exp(g(Xi)+φYi)1+exp(g(Xi)+φY)---(1)]]>其中,g(·)为未知函数,φ是未知的参数,参数φ决定数据是随机缺失还是非随机缺失;(5)引入指标参数向量β,假设f(y|x,δ=1)的一个参数模型为f(y|x,δ=1;β),用来表示完全数据下响应变量的条件密度函数;(6)在假设的logistic回归模型下,f(y|x,δ=0)的一个参数模型为f(y|x,δ=0;β,φ),用来表示含有不可忽略缺失数据下响应变量的条件密度函数,得到含有不可忽略缺失数据时响应变量的条件密度函数f(y|x,δ=0;β,φ)与完全数据时响应变量的条件密度函数f(y|x,δ=1;β)之间满足的指数偏斜模型,该指数偏斜模型表示为:f(y|x,δ=0;β,φ)=f(y|x,δ=1;β)×exp(-φy)E(exp(-φY)|x,δ=1)---(2);]]>(二)获取f(y|x,δ=0;β,φ)和f(y|x,δ=1;β)的参数形式中的参数β和φ的估计,其具体步骤为:(1)由步骤(一)中给定的X=x和δ=1下Y的条件密度函数f(y|x,δ=1)获得参数得分函数利用解得分方程得到参数β的极大似然估计(2)依据follow‑up sample,在follow‑up sampling后,如果Yi可观测令γi=1,否则令γi=0;通过解得到参数φ的一个相合估计(三)利用重要重采样算法来计算含有不可忽略缺失数据时关于响应变量的条件期望m(θ,x)=E(Q(θ,Y,X)|X=x,δ=0),其具体步骤为:(1)用代替条件密度函数f(y|x,δ=1;β)中的β,得到新的条件密度函数(2)从新得到的条件密度函数中抽取样本S={Y(k),k=1,2,…,M2},计算S中每个点的概率质量ωk(φ^)=exp(-φ^Y(k))1M2Σj=1M2exp(-φ^Y(j)),k=1,...,M2---(3)]]>(3)依据概率质量从S中有放回地抽取样本记抽出的样本为:(4)通过以下公式计算m0*(θ,Xi;β^,φ^)=1MΣj=1MQ(θ,Yij*,Xi)---(4)]]>式中,θ为未知参数;(5)执行重要重采样算法,当执行SIR算法时,要求M2→∞且M/M2→0;(四)构造基于蒙特卡罗方法的估计函数其步骤为:(1)采用蒙特卡罗方法并利用步骤(三)中得到的导出估计函数Q^(θ,Yi,Xi;β^,φ^)=δiQ(θ,Yi,Xi)+(1-δi)m0*(θ,Xi;β^,φ^)---(5);]]>(2)验证是渐进无偏的;(五)构造关于未知参数θ的经验似然比函数,获得未知参数θ的最大经验似然估计其具体步骤为:(1)构造关于未知参数θ的经验似然比函数R(θ):R(θ)=max{Πi=1n(npi)|pi≥0,Σi=1npi=1,Σi=1npiQ^(θ,Yi,Xi;β^,φ^)=0}---(6)]]>(2)通过拉格朗日乘子法计算得到对数经验似然比函数log(R(θ)):log(R(θ))=-Σi=1nlog(1+λT(θ)Q^(θ,Yi,Xi;β^,φ^))---(7)]]>其中,λ(θ)∈Rq,通过方程求解;(3)最大化对数经验似然比函数log(R(θ)),获得未知参数θ的最大经验似然估计...

【技术特征摘要】
1.一种含有不可忽略缺失数据的估计方程的稳健估计方法,其特征在于:含有以下步骤:(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系,确定上述两者之间关系的具体步骤为:(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的,而的值是缺失的;(2)引入响应变量Yi的示性函数δi,即如果Yi可观测,则δi=1,否则δi=0,且满足对任意的i≠j,假设δi和δj是独立的;(3)令f(y|x,δ=1)表示给定X=x和δ=1下Y的条件密度函数,f(y|x,δ=0)表示给定X=x和δ=0下Y的条件密度函数;(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为: P ( δ i = 1 | X i , Y i ) = π ( X i , Y i ) = exp ( g ( X i ) + φY i ) 1 + exp ( g ( X i ) + φ Y ) - - - ( 1 ) ]]>其中,g(·)为未知函数,φ是未知的参数,参数φ决定数据是随机缺失还是非随机缺失;(5)引入指标参数向量β,假设f(y|x,δ=1)的一个参数模型为f(y|x,δ=1;β)...

【专利技术属性】
技术研发人员:宋允全
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1