基于HF-GAN的心脏病诊断缺失数据填补方法及系统技术方案

技术编号：40942137 阅读：2 留言：0更新日期：2024-04-18 14:59

本发明专利技术属于医学数据处理技术领域，公开了基于HF‑GAN的心脏病诊断缺失数据填补方法及系统。该方法对系统初始化和配置的训练数据集以及测试数据集进行数据预处理；基于数据预处理后的数据，构建特征属性矩阵，并利用属性矩阵直接将医学疾病缺失数据转换为实值型、二值型或标称型数据，生成逼近真实数据的数据；构建并训练生成对抗网络，利用所述生成对抗网络对医学疾病缺失数据进行填补；对所述利用生成对抗网络对医学疾病缺失数据进行填补性能进行评估。本发明专利技术生成新的多样化数据实例，保证数据合理性的同时，增加数据的丰富性和复杂性。本发明专利技术提高了数据可解释性和实际应用价值，确保生成数据的有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于医学数据处理，尤其涉及基于hf-gan的心脏病诊断缺失数据填补方法及系统。

技术介绍

1、随着社会经济的发展和科技的进步，计算机与医疗领域的联系逐步密切，解决了很多以前无法回答的问题。心脏病作为一种高死亡率的疾病与人类死亡的第一因素，其诊断和预测方面存在的问题也日益明显。心脏病关键危险因素包括：高血压，高胆固醇和吸烟。其他关键指标包括糖尿病状态，肥胖（高bmi），身体活动不足或饮酒过多。然而，在实际应用中，由于各种噪声，测量工具等误差的影响，数据集大多存在或多或少的缺失问题，而此类误差通常无法根绝或避免，使得心脏病的预测和诊断存在很大的挑战，这些问题会严重影响疾病预防和治疗的效果，比如，当医生只有有限的数据可供参考时，可能会无法准确地判断患者是否处于高危状态，从而无法采取及时有效的干预措施。此外，针对一些罕见疾病，数据样本更是稀缺，这会进一步增加医生的诊断难度。因此，有必要针对心血管病，开发准确高效的早期预测工具来识别高危人群，进行发病预警。虽然目前心血管病的发病机制尚无定论，但是大量的研究证实，各类心血管病有着共同的病理基础，且主要危险因素已经确定，而大部分因素都是可以人为调整的。因此，针对心血管病的数据缺失问题，需要通过加强样本采集、优化数据处理算法等方式，提高预测模型的准确性和可靠性，为医生提供更好的辅助诊断工具，从而降低心血管病的发病风险。

2、目前比较先进的缺失数据填补算法分为判别式和生成式两种。判别式（discriminative methods）包括链式方程多重填补算法，随机森林算法以及矩

3、基于自编码器进行时序数据生成，但该算法的训练过程需要完整的时序数据，难以保证训练数据存在缺失时的生成效果。基于去噪自编码器实现缺失数据的多重插补，该算法将缺失数据视为一种特殊的噪声，通过去噪解决多种缺失模式下的填充问题。该方法的局限性在于初始化网络时使用平均值或最常用的标签来代替缺失数据，可能导致多变量关系的扭曲。gru-d模型不仅利用门控循环单元（gate recurrent unit,gru）捕获时间序列的前后依赖性，还利用缺失模式实现更好的预测结果，但该方法不能直接用于缺乏预测标签的无监督学习。将生成对抗网络应用于缺失数据生成，通过增加掩模矩阵与提示矩阵向判别器提供附加信息，从而确保生成器准确估算缺失位置与缺失值，但该方法未考虑时序数据的前后依赖关系。基于双重gan的故障预测方法，首先采用infogan生成逼近真实分布的故障样本与非故障样本，同时将判别器的部分网络结构作为推理网络的组成部分以获得生成样本所对应的标签，将生成样本与标签送入第二个生成对抗网络进一步加强样本与对于标签的一致性。该方法主要针对训练样本较少但数据集连续且完整的情况，难以保证当真实数据存在缺失时生成样本的可靠性。采用gru构成gan实现了时序数据的生成，该方法通过非缺失数据与生成数据之间的平方误差来保证生成个体的可靠性，但是无法保证缺失数据的填充结果符合整体分布。

4、以上研究仍然存在一些问题，传统的缺失数据填补方法依赖严格的假设，而真实数据往往难以满足这些假设，且难以在数据生成效果、多变量关系扭曲和时序依赖等方面达到平衡，尤其是在缺乏预测标签的无监督学习情况下。针对生成对抗网络模型，虽然比传统方法对缺失数据填补效果更加精确，也存在着如下问题。1）填补数据与真实数据的误差较大，生成器无法生成与缺失数据类似的样本分布；2）生成器生成的是一个0到1之间的值，并不是0或者1，使得生成数据的实际意义有些模糊。

技术实现思路

1、为克服相关技术中存在的问题，本专利技术公开实施例提供了基于hf-gan的心脏病诊断缺失数据填补方法及系统。

2、所述技术方案如下：基于hf-gan的心脏病诊断缺失数据填补方法，包括：

3、s1，对系统初始化和配置的训练数据集以及测试数据集进行数据预处理；

4、s2，基于数据预处理后的数据，构建属性矩阵，并利用属性矩阵直接将医学疾病缺失数据转换为实值型、二值型或标称型数据，构建并训练生成对抗网络，利用所述生成对抗网络对医学疾病缺失数据进行填补，生成逼近真实数据的分布形式；

5、s3，利用生成对抗网络对医学疾病缺失数据进行填补性能进行评估。

6、在步骤s1中，所述对系统初始化和配置的训练数据集以及测试数据集进行数据预处理包括：

7、第一步，ecg数据导入：使用‘readdata.readphysionetdata’从指定路径加载训练数据集，使用‘readtestdata.readphysionetdata’从指定路径加载测试数据集；其中，‘readtestdata.readphysionetdata’为从数据库读取数据函数的方法；

8、第二步，数据预处理，采用的方法为：最大最小归一化，可变分数阶梯度下降法。

9、在第二步中，所述最大最小归一化的表达式为：

10、；

11、式中，为经过归一化处理后的数据值，在[0,1]区间内；分别为第维属性的最大值和最小值，为未丢失可观测的数据；

12、所述可变分数阶梯度下降法包括：将caputo分数阶导数的公式扩展，表达式为：

13、；

14、式中，为caputo分数阶导数，为数据样本总数，为第某个样本，为分数阶导数的阶次，为输入函数的阶导数，为伽马函数，为时间，为起始时刻；

15、迭代方法如下：

16、；

17、式中，为时间点，为时间点，为不同时间学习率差值，为学习率，为caputo分数阶导数的标记，为时间的输入值，为正整数，为离散时间序列的某节点。

18、在步骤s2中，所述利用属性矩阵直接将医学疾病缺失数据转换为实值型、二值型或标称型数据，构建并训练生成对抗网络，利用所述生成对抗网络对医学疾病缺失数据进行填补，生成逼近真实数据的分布形式包括：

19、给定包含个数据样本的原始数据的数据集为，每个样本有维属性值数为；为第个数据样本的原始数据，为矩阵转置符号，为第个数据样本的第维的属性值数；

20、利用缺失标记矩阵确定原始数据的数据集缺失数据的信息，矩阵中的元素由以下公式产生：

21、；

22、式中，为第个样本的第维属性值缺失，为未丢失可观测的数据，为表示单元格中缺失数值，为第某个样本，为第某个维度，为数据样本总数；

23、特征属性包含实值型、二值型、标称型，将实值型、二值型、标称型分别设置为0，1，2，属性矩阵用来标记数据的属性信息，表达式为：

24、；

25、式中，为的数据类型，为数组中不重复的元本文档来自技高网...

【技术保护点】

1.一种基于HF-GAN的心脏病诊断缺失数据填补方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于HF-GAN的心脏病诊断缺失数据填补方法，其特征在于，在步骤S2中，所述构建并训练生成对抗网络，利用所述生成对抗网络对医学疾病缺失数据进行填补包括：

3.根据权利要求2所述的基于HF-GAN的心脏病诊断缺失数据填补方法，其特征在于，所述训练生成对抗网络包括：求解一个二元函数极小极大值的过程，表达式为：

4.根据权利要求3所述的基于HF-GAN的心脏病诊断缺失数据填补方法，其特征在于，训练生成对抗网络的损失函数为对抗损失中关于噪声的项，损失函数为：

5.根据权利要求4所述的基于HF-GAN的心脏病诊断缺失数据填补方法，其特征在于，训练生成对抗网络的损失函数其是对抗损失中关于样本的项，损失函数为：

6.根据权利要求1所述的基于HF-GAN的心脏病诊断缺失数据填补方法，其特征在于，在步骤S3中，所述利用生成对抗网络对医学疾病缺失数据进行填补性能进行评估包括：

7.一种基于HF-GAN的心脏病诊断缺失数据填补系

...

【技术特征摘要】

1.一种基于hf-gan的心脏病诊断缺失数据填补方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于hf-gan的心脏病诊断缺失数据填补方法，其特征在于，在步骤s2中，所述构建并训练生成对抗网络，利用所述生成对抗网络对医学疾病缺失数据进行填补包括：

3.根据权利要求2所述的基于hf-gan的心脏病诊断缺失数据填补方法，其特征在于，所述训练生成对抗网络包括：求解一个二元函数极小极大值的过程，表达式为：

4.根据权利要求3所述的基于hf-gan的心脏病诊断缺失数据填补方法，其特征在于，训练生成对抗网络的损失函...

【专利技术属性】
技术研发人员：李恩平，张尉华，彭刚，姜淑华，杨阳，王继奎，李锐，陆巍群，王杰，王保国，丛海芳，李明秋，
申请(专利权)人：长春师凯科技产业有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人