一种不平衡医疗数据缺失值填充方法及系统技术方案

技术编号：39410800 阅读：8 留言：0更新日期：2023-11-19 16:02

本发明专利技术公开了一种不平衡医疗数据缺失值填充方法及系统，本发明专利技术使用推土机距离构建生成器和判别器的损失，能够解决在训练过程中生成器可能出现消失梯度的问题；将患者标签作为监督信号加入到生成器中，增加生成器生成患者数据的多样性；增加了辅助分类器，对填补单元填补后的患者数据进行预测，并将预测结果反馈给生成器，提高生成器的生成效果；利用随机数填充患者数据的缺失部分，将填充后的患者数据作为生成器的输入，通过生成器学习缺失值与其他数据间的关系，避免了在训练过程中需要收集足够多完整样本的问题；生成器损失由三部分组成，通过构建不同的损失，让生成器从不同角度考虑填充的效果，从而提高填充结果的准确性。从而提高填充结果的准确性。从而提高填充结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种不平衡医疗数据缺失值填充方法及系统

[0001]本专利技术属于医疗信息
，尤其涉及一种不平衡医疗数据缺失值填充方法及系统。

技术介绍

[0002]电子健康记录（EHR, Electronic Health Records）保存着患者就诊相关的信息，包含患者的基本信息、诊断信息、检查信息、用药信息等。这些信息为医疗数据挖掘提供基础。但由于收集设备故障、传输不稳定等因素，会导致电子健康记录存在大量的缺失数据。这些缺失数据不仅会增大统计分析的复杂性和难度，还会导致分析结果不准确。因此，解决电子健康记录中的缺失值填充问题，对提高数据挖掘的质量具有重要意义。
[0003]生成对抗网络（GAN, Generative Adversarial Networks）是一种捕获训练数据分布的神经网络，通过学习到的数据分布创造新的数据，目前常用于图片生成、文字生成等领域。近些年，也有专家和学者将GAN方法运用于数据缺失值填充领域，但在现实生活中，由于医院患者的电子病历数据常常是不平衡的，不同类型疾病患者数量相差较大，如果直接将GAN方法作用于不平衡的医疗数据缺失值填充时会存在一些问题。一方面，填充效果缺乏多样性，在不平衡的样本上，生成器通过只关注样本数量多的类型填充质量并忽视那些数据数量少的类型填充质量，以此来欺骗判别器，从而导致最后填充的数据只属于某类疾病的数据。另一方面，GAN方法在不平衡数据上训练，生成器更容易发生消失梯度问题。《Wasserstein GAN》文章指出，在最优判别器下，最小化生成器的损失等价于最小...

【技术保护点】

【技术特征摘要】
1.一种不平衡医疗数据缺失值填充方法，其特征在于，包括：利用医院的信息化系统获取患者数据；利用数据填充模型对患者数据中的缺失值进行填充；所述数据填充模型包括数据处理单元、生成器、填补单元、判别器和辅助分类器；所述生成器和判别器构成生成对抗网络；所述数据处理单元中，使用掩码矩阵记录患者原始数据中缺失值的位置，使用0预填充患者原始数据中的缺失值，使用随机数填充患者原始数据中的缺失值，并输入生成器；所述生成器用于学习输入的患者数据的分布，生成新的患者数据，并输入填补单元，所述生成器的输入包括患者数据和患者标签；所述填补单元用于利用生成器生成的新的患者数据对患者原始数据中的缺失值进行填补；所述判别器用于对输入的每个患者数据进行辨别，判断是否为观察值，所述判别器的输入包括填补单元填补后的患者数据以及使用0预填充患者原始数据中的缺失值后的患者数据，输出为每个患者数据为观察值的概率；所述辅助分类器用于对填补单元填补后的患者数据进行预测，将预测结果反馈给生成器；训练过程包括预训练辅助分类器和正式训练数据填充模型，预训练过程中使用未缺失的患者数据对辅助分类器进行训练，确定辅助分类器网络参数，正式训练过程中辅助分类器网络参数不参与更新；正式训练过程中先训练判别器再训练生成器，判别器和生成器不断的对抗训练，直至数据填充模型收敛；将需要填充缺失值的患者数据及患者标签输入训练好的数据填充模型，经过数据处理单元、生成器和填补单元后，输出填充后的患者数据。2.根据权利要求1所述的一种不平衡医疗数据缺失值填充方法，其特征在于，对获取的患者数据进行数据预处理后再输入数据填充模型，具体为：对离散型数据进行独热编码操作，对连续型数据进行最大最小值归一化操作。3.根据权利要求1所述的一种不平衡医疗数据缺失值填充方法，其特征在于，患者原始数据记为，其中表示第i个患者的原始数据，n为患者数量，k为特征数量；掩码矩阵记为，其中用于标记第i个患者原始数据中的观察值和缺失值，观察值取1，缺失值取0；使用0预填充患者原始数据中的缺失值，填充后的数据矩阵记为，其中表示使用0预填充第i个患者原始数据中的缺失值后的患者数据；创建随机矩阵记为，其中是随机生成的符合标准正态分布的随机数向量，用于填充第i个患者原始数据中的缺失值；使用随机矩阵中的随机数填充患者原始数据中的缺失值，填充后的数据矩阵记为，其中表示使用随机数填充第i个患者原始数据中的缺失值后得到的患者数据，，表示哈达玛积。4.根据权利要求3所述的一种不平衡医疗数据缺失值填充方法，其特征在于，所述生成
器的损失函数由三部分组成，第一部分是计算生成器生成的观察值与实际观察值之间的差距，使用均方误差作为损失函数；第二部分是生成对抗网络的生成器损失，使用Wasserstein距离作为损失函数；第三部分损失是计算辅助分类器对填补单元填补后的患者数据的预测标签与患者真实标签之间的差距，使用交叉熵函数作为损失函数。5.根据权利要求4所述的一种不平衡医疗数据缺失值填充方法，其特征在于，所述生成器的损失函数；第一部分损失函数；第二部分损失函数；第三部分损失函数；其中表示第i个患者数据作为输入时生成器的输出值，，G()表示经过生成器后得到的患者数据，y
i
表示第i个患者的真实标签，D()表示患者数据经过判别器后得到的结果，t
i
表示第i个患者原始数据经填补单元填补后的患者数据，表示辅助分类器对第i个患者的预测标签，和为超参数，

【专利技术属性】
技术研发人员：李劲松，朱伟伟，池胜强，田雨，周天舒，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人