一种基于因果校验数据生成的全科多疾病预测系统技术方案

技术编号：33933360 阅读：30 留言：0更新日期：2022-06-25 22:47

本发明专利技术公开了一种基于因果校验数据生成的全科多疾病预测系统，本发明专利技术针对全科场景，从因果性的角度出发，提出了基于全科倾向性得分网络的倾向性得分计算方法；相较于传统生成式对抗网络可解释性差的问题，本发明专利技术提出了基于因果校验的生成式对抗网络，使得生成的数据更加符合真实的因果逻辑；针对现有图卷积神经网络仅从相关性角度建模的问题，本发明专利技术提出了基于全科因果图卷积神经网络的全科多疾病预测模型，融入因果效应值以提升全科多疾病预测系统对疾病的预测性能，解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。样本少导致模型表现差以及鲁棒性不高的问题。样本少导致模型表现差以及鲁棒性不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于因果校验数据生成的全科多疾病预测系统

[0001]本专利技术属于医疗健康信息
，具体涉及一种基于因果校验数据生成的全科多疾病预测系统。

技术介绍

[0002]随着信息技术的发展，机器学习已经成为推动医疗发展的重要力量。全科医学作为医疗领域受众面最广的医学学科，是机器学习模型在医疗场景应用的重点领域之一。然而，由于全科疾病多而繁杂，样本获取成本高等问题，部分疾病常常难以获取大量的训练数据，导致现有的全科多疾病预测系统对少样本疾病的预测效果不佳。目前迫切需要一套针对少样本的全科多疾病预测系统。
[0003]通过数据生成方法生成模拟数据是解决机器学习模型训练样本不足的常见方法。现有的数据生成方式主要是基于生成式对抗网络。生成式对抗网络在生成图像数据的时候表现良好。然而全科场景，数据种类繁多且结构复杂，尤其是结构化的医疗数据，包含以患者为中心的多种类特征数据，在时间、空间上存在异质性，数据分布较为复杂。传统生成式对抗网络难以处理分布复杂的结构化数据。一方面，使用少样本数据训练容易出现训练不稳定、梯度消失、模式崩溃的问题。另一方面，仅考虑了变量之间的相关性，没有考虑变量之间的因果关系，将导致其生成的数据常常难以理解，不符合常识，使用这些数据用于模型训练，可能不能提高甚至会削弱模型的训练效果。例如，感冒可分为病毒性感冒和细菌性感冒，也会用两种药。如果基于相关性模型生成发烧患者的数据，可能会生成同时使用病毒性感冒药和细菌性感冒药的情况，这会对后续构建模型产生干扰。
[0004]基于倾向性得分的因果效应...

【技术保护点】

【技术特征摘要】
1.一种基于因果校验数据生成的全科多疾病预测系统，其特征在于，包括：(1)疾病统计模块：用于统计各种全科疾病样本数，根据各种全科疾病样本比率得到少样本全科疾病；(2)因果校验模块：根据全科病人的特征变量集构成第一事件变量集合，疾病标签变量集构成第二事件变量集合，任意第一事件变量同任意第二事件变量构成一个事件配对；构建并训练全科倾向性得分网络，使用训练完成的全科倾向性得分网络计算全科倾向性得分，所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率；使用全科倾向性得分计算所有事件配对的因果效应值；(3)数据生成模块：对于少样本全科疾病，基于因果校验的生成式对抗网络构建数据生成模型，使用训练完成的数据生成模型生成模拟数据；所述数据生成模型包括生成器和判别器，所述生成器和所述判别器迭代交替训练；所述生成器的训练过程包括：对于每种少样本全科疾病生成随机噪声，将随机噪声以及对应的疾病标签输入生成器得到生成样本；计算生成样本的所有事件配对的因果效应值；将生成样本以及对应的疾病标签输入判别器，得到判别结果；所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失；所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失；所述判别器的训练过程包括：从原始数据中随机抽取正样本，并抽取相同数量但疾病标签不同的负样本；生成相同数量随机噪声，使用生成器得到生成样本；将正样本、负样本、生成样本分别输入判别器，得到判别结果；(4)模型预测模块：获取待训练全科病人的特征数据和疾病标签数据，对少样本全科疾病使用数据生成模型生成全科疾病数据；将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型，使用训练完成的全科多疾病预测模型对全科疾病进行预测。2.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述因果校验模块中，使用全科病人的二分类变量数据训练全科倾向性得分网络；将全科病人的特征变量数据和标签变量数据转换成二分类变量，对于类别变量，通过独热编码转换成二分类变量，对于连续变量，通过分箱转换至类别变量之后通过独热编码转换成二分类变量。3.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层；输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个数M；局部连接层和sigmoid激活层均包含τM个节点，；输入层的第u个节点同局部连接层的除第到τu个节点之外的所有节点相连；第到τu个局部连接层节点同第到τu个sigmoid激活层节点一一对应连接；第到τu个sigmoid激活层节点仅同第u个输出层节点相连。4.根据权利要求3所述的基于因果校验数据生成的全科多疾病预测系统，其特征在于，所述全科倾向性得分网络的训练过程如下：
对于每个第一事件变量a，将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示，将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示，将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值；使用所有第一事件变量的预测值同所有第一事件变量的真实...

【专利技术属性】
技术研发人员：李劲松，王丰，张航，池胜强，田雨，周天舒，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人