一种基于表格学习的医疗缺失数据插补方法技术

技术编号:39142569 阅读:13 留言:0更新日期:2023-10-23 14:55
本发明专利技术属于医疗数据处理技术领域,具体涉及一种基于表格学习的医疗缺失数据插补方法;该方法包括:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据;对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵;采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正后的完整医疗数据;将缺失掩码矩阵输入到提示生成器中,得到提示矩阵;采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵;计算模型损失并根据模型损失调整模型参数,得到训练好的医疗缺失数据插补模型;本发明专利技术插补精度高,插补速度快。插补速度快。插补速度快。

【技术实现步骤摘要】
一种基于表格学习的医疗缺失数据插补方法


[0001]本专利技术属于医疗数据处理
,具体涉及一种基于表格学习的医疗缺失数据插补方法。

技术介绍

[0002]近年来随着计算机技术的兴起,各行各业都取得了飞速的发展,尤其是医疗领域。但是在医疗领域中,要分析数据必然会遇到缺失数据的问题。这个问题是不可避免的,并且在医学或者社会研究中无处不在。缺失数据往往会使得数据分析和数据挖掘复杂化并且影响随机试验和观察性研究。因此处理缺失数据已经成为了领域数据分析的重要环节。
[0003]在现有的研究中,缺失值可以分为三类:完全随机缺失、随机缺失和非随机缺失。在完全随机缺失中,缺失值不与任何变量有关,换言之就是不与其他缺失值和现有的不缺失值相关,缺失值的出现完全是随机事件。这样的数据可以看成是完整数据的随机样本。随机缺失意味着缺失值不是完全随机的,它仅仅依赖于现有的不缺失值。最后在非随机缺失中,数据的缺失不是随机的,它依赖于其他的缺失值和现有的不缺失值,并且无法通过已有的数据来掌握数据的情况。
[0004]本专利技术中的模型和数据是针对完全随机缺失情况而言,在现有的研究中,很少有表格学习结合缺失值插补方法的研究。并且由于表格数据的特殊性,深度学习在表格数据上容易造成过拟合效果,但是深度学习和表示学习近年也展现出强大的优势。

技术实现思路

[0005]针对现有技术存在的不足,本专利技术提出了一种基于表格学习的医疗缺失数据插补方法,该方法包括:获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,得到完整医疗数据;
[0006]医疗缺失数据插补模型的训练过程包括:
[0007]S1:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据;
[0008]S2:对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵;
[0009]S3:采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正后的完整医疗数据;
[0010]S4:将缺失掩码矩阵输入到提示生成器中,得到提示矩阵;
[0011]S5:采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵;
[0012]S6:根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失,根据生成器和鉴别器损失调整模型参数,得到训练好的医疗缺失数据插补模型。
[0013]优选的,采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括:连接初步完整医疗数据和缺失掩码矩阵,得到连接向量;分别采用深层网络和浅层网
络对连接向量进行处理,得到深层修正数据和浅层修正数据;融合深层修正数据和浅层修正数据,得到修正医疗数据。
[0014]进一步的,所述深层网络由多个基础块构成,两个基础块之间采用门控残差连接;每个基础块由特征选择层、注意力层和线性层组成。
[0015]进一步的,特征选择层对数据的处理过程包括:采用第一线性层和tanh激活函数对输入数据进行处理,得到第一输出;采用第二线性层和sparsemax激活函数对第一输出进行处理,得到稀疏概率;将稀疏概率和输入数据相乘得到特征选择层输出。
[0016]进一步的,融合深层修正数据和浅层修正数据的过程包括:计算深层修正数据与待插补医疗缺失数据不缺失部分的深层MSE损失,计算浅层修正数据与待插补医疗缺失数据不缺失部分的浅层MSE损失;计算深层修正数据的相似度和浅层修正数据的相似度;将深层MSE损失、浅层MSE损失、深层修正数据的相似度和浅层修正数据的相似度输入到线性层和sparsemax激活函数中进行处理,得到深层权重和浅层权重;根据深层权重和浅层权重对深层修正数据和浅层修正数据进行加权求和,得到修正医疗数据。
[0017]优选的,改进的鉴别器和改进的生成器结构相同。
[0018]优选的,计算生成器损失的公式为:
[0019][0020]其中,N表示样本数,G表示生成器,表示i样本j维度的掩码变量,表示鉴别器生成的i样本j维度的掩码变量,表示第一权重参数,表示生成器输入的i样本j维度数据,表示深层网络输出的i样本j维度数据,β表示第二权重参数,表示浅层网络输出的i样本j维度数据,γ表示第三权重参数,表示融合层输出的i样本j维度数据,d表示样本维度个数。
[0021]优选的,计算鉴别器损失的公式为:
[0022][0023]其中,D表示鉴别器,表示i样本j维度的掩码变量,表示鉴别器生成的i样本j维度的掩码变量,N表示样本数,d表示样本维度个数。
[0024]本专利技术的有益效果为:本专利技术通过采用改进的生成器和鉴别器对待插补的医疗缺失数据进行处理,在融合深层网络数据和浅层网络数据过程中,考虑了不同通道的多样性和准确性,可以根据数据本身动态融合出不同的结果,从而得到更好的修正数据;本专利技术将对抗插补网络与表格数据的深度学习以及表示学习的模型结合,可以提高缺失数据插补精度,实现高效率插补。
附图说明
[0025]图1为本专利技术中基于表格学习的医疗缺失数据插补方法流程框图;
[0026]图2为本专利技术中特征选择结构示意图;
[0027]图3为本专利技术中不同通道融合示意图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]本专利技术提出了一种基于表格学习的医疗缺失数据插补方法,如图1所示,所述方法包括以下内容:获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,得到完整医疗数据。
[0030]医疗缺失数据插补模型的训练过程包括:
[0031]S1:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据。
[0032]优选的,可从医院获取患者的高原反应数据集作为待插补的医疗缺失数据,该数据包括10年左右的数据,其中每一年进行体检的项目可能存在区别,并且每一年的体检的人也是基本不同的,同时每一年的样本还有特征缺失的情况,数据比较复杂。该数据包括常见的人口统计信息,比如说出生年月、身高、体重等信息,还包括检查信息,比如说血糖、血压、血氧饱和度等,还有各种的问卷信息,比如说有无口唇发紫、有无记忆力减退、有无头痛头晕等信息。
[0033]对待插补的医疗缺失数据进行预处理,具体的:针对数据的特征情况,参考青海CMS记分系统,选择容易得到的自测信息作为特征,不容易得到的HGB(血红蛋白)含量作为标签,且过滤了不包含标签的年份数据和缺失率超过50%的样本数据,最终得到可用数据如表1所示。
[0034]表1数据集情况
[0035][0036]由于该数据集是半本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表格学习的医疗缺失数据插补方法,其特征在于,包括:获取待插补的医疗缺失数据并对其进行预处理,将预处理好的医疗缺失数据输入到训练好的医疗缺失数据插补模型中,得到完整医疗数据;医疗缺失数据插补模型的训练过程包括:S1:获取待插补的医疗缺失数据并对其进行预处理,得到预处理好的医疗缺失数据;S2:对预处理好的医疗缺失数据分别进行预插补和转换操作,得到初步完整医疗数据和缺失掩码矩阵;S3:采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理,得到修正医疗数据;计算生成器损失;S4:将缺失掩码矩阵输入到提示生成器中,得到提示矩阵;S5:采用改进的鉴别器对修正医疗数据和提示矩阵进行处理,得到估计掩码矩阵;S6:根据缺失掩码矩阵和估计掩码矩阵计算鉴别器损失,根据生成器损失和鉴别器损失调整模型参数,得到训练好的医疗缺失数据插补模型。2.根据权利要求1所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,采用改进的生成器对初步完整医疗数据和缺失掩码矩阵进行处理的过程包括:连接初步完整医疗数据和缺失掩码矩阵,得到连接向量;分别采用深层网络和浅层网络对连接向量进行处理,得到深层修正数据和浅层修正数据;融合深层修正数据和浅层修正数据,得到修正医疗数据。3.根据权利要求2所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,所述深层网络由多个基础块构成,两个基础块之间采用门控残差连接;每个基础块由特征选择层、注意力层和线性层组成。4.根据权利要求3所述的一种基于表格学习的医疗缺失数据插补方法,其特征在于,特征选择层对数据的处理过程包括:采用第一线性层和tanh激活函数对输入数据进行处理,得到第一输出;采用...

【专利技术属性】
技术研发人员:胡峰周西川于洪苏祖强刘运胜代劲刘净枫
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1