含有不可忽略缺失数据的估计方程的稳健估计方法技术

技术编号：13674636 阅读：198 留言：0更新日期：2016-09-08 00:00

本发明专利技术涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法，步骤为：Q(θ,Y,X)，在不可忽略缺失数据模型为logistic回归模型时，通过重要重采样算法计算插补的估计方程中包含的条件期望m(θ,x)，得到修正的估计方程然后基于修正的估计方程并利用经验似然方法求得估计方程中未知参数θ的稳健经验似然估计。本发明专利技术通过用估计方程插补含缺失数据的估计方程而非插补缺失值的方法以及经验似然法对估计参数进行稳健俺估计，成功避免了非参数核估计方法当协变量的维数较高时产生“维数祸根”的问题，大幅改进了存在不可忽略缺失数据时数据处理的精度，提高了预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘与机器学习领域，涉及数据挖掘和数据处理的方法，具体地说，涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法。
技术介绍
经典的统计方法与理论大都是建立在完全数据分析的基础上，然而在实践中，数据缺失普遍发生在很多实际问题中，如民意调查、市场调研、邮寄问卷调查、社会经济研究、医学研究、观察研究以及其他科学实验中常常会发生缺失数据的问题。在这种情况下，标准的统计方法不能直接应用到这些不完全数据的统计分析。目前对不完全数据的处理大都假设缺失数据机制为可忽略的，常常将带缺失数据的个体删除，只保留带完整数据的个体组成的数据组进行统计分析。然而，这一方法在大部分情况下分析结果都有严重偏差，并且由于一些有缺失数据个体被删除以至产生不必要的信息损失，常常导致无效统计，甚至会得出错误的结论，因此缺失数据有必要考虑为不可忽略。但在不可忽略缺失数据这一假设下的统计分析与理论研究相当困难，目前这方面研究成果很少。近年来，对于不可忽略缺失数据的处理有了一些进展，如极大似然估计EM算法、多重填补方法以及加权估计法等。估计方程方法是统计推断中最为普通但也非常有用的统计推断方法之一，其思想和结果广泛应用于生存分析、生物统计、计量经济及金融计量中。具体地说，考虑q个相互独立的函数构成的q维向量Q(θ,y,x)＝(Q1(θ,y,x),…,Qq(θ,y,x))T，其中Qi(θ,y,x)，i＝1,…,q满足矩约束条件E(Qi(θ,Y,X))＝0,i＝1,…,q，对某个其中θ0是未知参数θ的真实值，且p≤q，Y和X是s维和d维的随机变量。在缺失数据下，关于估计方程方法的研究...

【技术保护点】
一种含有不可忽略缺失数据的估计方程的稳健估计方法，其特征在于：含有以下步骤：(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据，确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系，确定上述两者之间关系的具体步骤为：(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的，而的值是缺失的；(2)引入响应变量Yi的示性函数δi，即如果Yi可观测，则δi＝1，否则δi＝0，且满足对任意的i≠j，假设δi和δj是独立的；(3)令f(y|x,δ＝1)表示给定X＝x和δ＝1下Y的条件密度函数，f(y|x,δ＝0)表示给定X＝x和δ＝0下Y的条件密度函数；(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型，表示为：P(δi=1|Xi,Yi)=π(Xi,Yi)=exp(g(Xi)+φYi)1+exp(g(Xi)+φY)---(1)]]>其中，g(·)为未知函数，φ是未知的参数，参数φ决定数据是随机缺失还是非随机缺失；(5)引入指标参数向量β，假设f(...

【技术特征摘要】
1.一种含有不可忽略缺失数据的估计方程的稳健估计方法，其特征在于：含有以下步骤：(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据，确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系，确定上述两者之间关系的具体步骤为：(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的，而的值是缺失的；(2)引入响应变量Yi的示性函数δi，即如果Yi可观测，则δi＝1，否则δi＝0，且满足对任意的i≠j，假设δi和δj是独立的；(3)令f(y|x,δ＝1)表示给定X＝x和δ＝1下Y的条件密度函数，f(y|x,δ＝0)表示给定X＝x和δ＝0下Y的条件密度函数；(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型，表示为： P ( δ i = 1 | X i , Y i ) = π ( X i , Y i ) = exp ( g ( X i ) + φY i ) 1 + exp ( g ( X i ) + φ Y ) - - - ( 1 ) ]]>其中，g(·)为未知函数，φ是未知的参数，参数φ决定数据是随机缺失还是非随机缺失；(5)引入指标参数向量β，假设f(y|x,δ＝1)的一个参数模型为f(y|x,δ＝1；β)...

【专利技术属性】
技术研发人员：宋允全，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人