真实世界研究中多个协变量缺失数据填补方法及系统技术方案

技术编号:40416331 阅读:31 留言:0更新日期:2024-02-20 22:33
本发明专利技术提供一种真实世界研究中多个协变量缺失数据填补方法及系统。多个协变量缺失数据填补方法包括:步骤S1:输入原始数据集,得到数据集中的含缺失数据的变量的具体信息;步骤S2:根据原始数据集的数据缺失信息,以及Little检验和Liu’s Score检验自动判断数据的缺失机制;步骤S3:若判断出缺失机制为完全随机缺失或随机缺失时,则使用MCMC进行填补,得到若干填补后的完整数据集;若判断出缺失机制为非随机缺失时,则使用GEM进行填补,得到若干二次填补后的完整数据集;步骤S4:输出填补后的完整数据集。本申请的缺失数据填补方法可方便快捷地生成填补后的完整的且可供统计分析的真实世界研究的数据集,从而提高含多个协变量缺失数据的填补效率和准确性。

【技术实现步骤摘要】

本专利技术涉及医疗信息领域,具体涉及一种真实世界医学研究中多个协变量缺失数据的填补方法及系统。


技术介绍

1、真实世界研究是医学领域重要的组成部分,因其数据大多来自于日常医疗卫生工作积累的常规数据,因此数据缺失是真实世界医学研究中无法避免的问题。数据缺失不仅会给统计分析和结果解释带来挑战,还可能使研究结论发生偏倚,影响其代表性和真实性。直接删除或忽略缺失数据则会造成选择偏倚、信息利用不充分等问题。数据的缺失机制包括完全随机缺失(missing completely at random,mcar)、随机缺失(missing at random,mar)和非随机缺失(missing not at random,mnar)。由于真实世界数据异质性强,混杂和干扰因素多,其数据缺失多表现为多个协变量含有缺失数据的非单调的混合缺失模式。因此,常规的均数填补、回归填补和末次观测结转法等单一填补方法不再适用。

2、多重填补(multiple imputation,mi)和生成对抗填补网络(generativeadversarial imputation net本文档来自技高网...

【技术保护点】

1.一种真实世界研究中多个协变量缺失数据填补方法,其特征在于,包括:

2.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为完全随机缺失或随机缺失时,对基于步骤S1的含缺失值的数据集,进行MCMC填补,可设置MCMC的填补次数为m,m为≥2的正整数,得到m个填补后的完整数据集。

3.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为非随机缺失时,首先,使用MCMC对原始数据集多个存在缺失数据的协变量进行填补,可设置MCMC的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据...

【技术特征摘要】

1.一种真实世界研究中多个协变量缺失数据填补方法,其特征在于,包括:

2.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为完全随机缺失或随机缺失时,对基于步骤s1的含缺失值的数据集,进行mcmc填补,可设置mcmc的填补次数为m,m为≥2的正整数,得到m个填补后的完整数据集。

3.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为非随机缺失时,首先,使用mcmc对原始数据集多个存在缺失数据的协变量进行填补,可设置mcmc的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据集中每一个观测的缺失信息,若观测缺失,则记为0,未缺失,则记为1;其次,根据mcmc提供的信息先验和缺失信息,分别对mcmc初始填补后得到的m个完整数据集使用gain进行二次填补,得到m个二次填补后的完整数据集。

4.如权利要求3所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,gain的参数设置如下:生成器和判别器的深度设为3~5层,输出层使用sigmoid激活函数,其他层使用relu激活函数,每次迭代1000~10000次,迭代过程中的batch size可设为32、64或128。

5.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,进一步包括:对输出的所述若干完整数据集分别进行统计分析,如线性回归分析,并根据rubin法则合并得到最终统计分析结果。

6.一种真实世界研究中多个...

【专利技术属性】
技术研发人员:吴骋朱荣慧秦婴逸王睿何倩武胜勇
申请(专利权)人:中国人民解放军海军军医大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1