【技术实现步骤摘要】
本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法。
技术介绍
经典的统计方法与理论大都是建立在完全数据分析的基础上,然而在实践中,数据缺失普遍发生在很多实际问题中,如民意调查、市场调研、邮寄问卷调查、社会经济研究、医学研究、观察研究以及其他科学实验中常常会发生缺失数据的问题。在这种情况下,标准的统计方法不能直接应用到这些不完全数据的统计分析。目前对不完全数据的处理大都假设缺失数据机制为可忽略的,常常将带缺失数据的个体删除,只保留带完整数据的个体组成的数据组进行统计分析。然而,这一方法在大部分情况下分析结果都有严重偏差,并且由于一些有缺失数据个体被删除以至产生不必要的信息损失,常常导致无效统计,甚至会得出错误的结论,因此缺失数据有必要考虑为不可忽略。但在不可忽略缺失数据这一假设下的统计分析与理论研究相当困难,目前这方面研究成果很少。近年来,对于不可忽略缺失数据的处理有了一些进展,如极大似然估计EM算法、多重填补方法以及加权估计法等。估计方程方法是统计推断中最为普通但也非常有用的统计推断方法之一,其思想和结果广泛应用于生存分析、生物统计、计量经济及金融计量中。具体地说,考虑q个相互独立的函数构成的q维向量Q(θ,y,x)=(Q1(θ,y,x),…,Qq(θ,y,x))T,其中Qi(θ,y,x),i=1,…,q满足矩约束条件E(Qi(θ,Y,X))=0,i=1,…,q,对某个其中θ0是未知参数θ的真实值,且p≤q,Y和X是s维和d维的随机变量。在缺失数据下,关于估计方程方法的研究 ...
【技术保护点】
一种含有不可忽略缺失数据的估计方程的稳健估计方法,其特征在于:含有以下步骤:(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系,确定上述两者之间关系的具体步骤为:(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的,而的值是缺失的;(2)引入响应变量Yi的示性函数δi,即如果Yi可观测,则δi=1,否则δi=0,且满足对任意的i≠j,假设δi和δj是独立的;(3)令f(y|x,δ=1)表示给定X=x和δ=1下Y的条件密度函数,f(y|x,δ=0)表示给定X=x和δ=0下Y的条件密度函数;(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为:P(δi=1|Xi,Yi)=π(Xi,Yi)=exp(g(Xi)+φYi)1+exp(g(Xi)+φY)---(1)]]>其中,g(·)为未知函数,φ是未知的参数,参数φ决定数据是随机缺失还是非随机缺失;(5)引入指标参数向量β,假设f( ...
【技术特征摘要】
1.一种含有不可忽略缺失数据的估计方程的稳健估计方法,其特征在于:含有以下步骤:(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系,确定上述两者之间关系的具体步骤为:(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的,而的值是缺失的;(2)引入响应变量Yi的示性函数δi,即如果Yi可观测,则δi=1,否则δi=0,且满足对任意的i≠j,假设δi和δj是独立的;(3)令f(y|x,δ=1)表示给定X=x和δ=1下Y的条件密度函数,f(y|x,δ=0)表示给定X=x和δ=0下Y的条件密度函数;(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为: P ( δ i = 1 | X i , Y i ) = π ( X i , Y i ) = exp ( g ( X i ) + φY i ) 1 + exp ( g ( X i ) + φ Y ) - - - ( 1 ) ]]>其中,g(·)为未知函数,φ是未知的参数,参数φ决定数据是随机缺失还是非随机缺失;(5)引入指标参数向量β,假设f(y|x,δ=1)的一个参数模型为f(y|x,δ=1;β)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。