当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于因果校验数据生成的全科多疾病预测系统技术方案

技术编号:33933360 阅读:30 留言:0更新日期:2022-06-25 22:47
本发明专利技术公开了一种基于因果校验数据生成的全科多疾病预测系统,本发明专利技术针对全科场景,从因果性的角度出发,提出了基于全科倾向性得分网络的倾向性得分计算方法;相较于传统生成式对抗网络可解释性差的问题,本发明专利技术提出了基于因果校验的生成式对抗网络,使得生成的数据更加符合真实的因果逻辑;针对现有图卷积神经网络仅从相关性角度建模的问题,本发明专利技术提出了基于全科因果图卷积神经网络的全科多疾病预测模型,融入因果效应值以提升全科多疾病预测系统对疾病的预测性能,解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。样本少导致模型表现差以及鲁棒性不高的问题。样本少导致模型表现差以及鲁棒性不高的问题。

【技术实现步骤摘要】
一种基于因果校验数据生成的全科多疾病预测系统


[0001]本专利技术属于医疗健康信息
,具体涉及一种基于因果校验数据生成的全科多疾病预测系统。

技术介绍

[0002]随着信息技术的发展,机器学习已经成为推动医疗发展的重要力量。全科医学作为医疗领域受众面最广的医学学科,是机器学习模型在医疗场景应用的重点领域之一。然而,由于全科疾病多而繁杂,样本获取成本高等问题,部分疾病常常难以获取大量的训练数据,导致现有的全科多疾病预测系统对少样本疾病的预测效果不佳。目前迫切需要一套针对少样本的全科多疾病预测系统。
[0003]通过数据生成方法生成模拟数据是解决机器学习模型训练样本不足的常见方法。现有的数据生成方式主要是基于生成式对抗网络。生成式对抗网络在生成图像数据的时候表现良好。然而全科场景,数据种类繁多且结构复杂,尤其是结构化的医疗数据,包含以患者为中心的多种类特征数据,在时间、空间上存在异质性,数据分布较为复杂。传统生成式对抗网络难以处理分布复杂的结构化数据。一方面,使用少样本数据训练容易出现训练不稳定、梯度消失、模式崩溃的问题。另一方面,仅考虑了变量之间的相关性,没有考虑变量之间的因果关系,将导致其生成的数据常常难以理解,不符合常识,使用这些数据用于模型训练,可能不能提高甚至会削弱模型的训练效果。例如,感冒可分为病毒性感冒和细菌性感冒,也会用两种药。如果基于相关性模型生成发烧患者的数据,可能会生成同时使用病毒性感冒药和细菌性感冒药的情况,这会对后续构建模型产生干扰。
[0004]基于倾向性得分的因果效应值计算方法是最为常见衡量变量之间因果关系的方法。现有的倾向性得分计算方法大多是基于逻辑斯特回归,然而全科场景由于数据种类繁多,结构复杂且常常线性不可分,基于逻辑斯特回归的倾向性得分计算方法在全科场景表现不佳。

技术实现思路

[0005]本专利技术针对现有技术的不足,从因果性的角度出发,提出了基于全科倾向性得分网络的倾向性得分计算方法,并在此基础上提出了基于因果校验的生成式对抗网络的医疗数据生成方法,解决了基于相关性分析的生成式对抗网络生成数据难以理解的问题,构建了一套全科多疾病预测系统,解决了全科场景因训练样本少导致模型表现差以及鲁棒性不高的问题。
[0006]本专利技术的目的是通过以下技术方案实现的:一种基于因果校验数据生成的全科多疾病预测系统,包括:(1)疾病统计模块:用于统计各种全科疾病样本数,根据各种全科疾病样本比率得到少样本全科疾病;(2)因果校验模块:根据全科病人的特征变量集构成第一事件变量集合,疾病标签
变量集构成第二事件变量集合,任意第一事件变量同任意第二事件变量构成一个事件配对;构建并训练全科倾向性得分网络,使用训练完成的全科倾向性得分网络计算全科倾向性得分,所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率;使用全科倾向性得分计算所有事件配对的因果效应值;(3)数据生成模块:对于少样本全科疾病,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据;所述数据生成模型包括生成器和判别器,所述生成器和所述判别器迭代交替训练;所述生成器的训练过程包括:对于每种少样本全科疾病生成随机噪声,将随机噪声以及对应的疾病标签输入生成器得到生成样本;计算生成样本的所有事件配对的因果效应值;将生成样本以及对应的疾病标签输入判别器,得到判别结果;所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失;所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失;所述判别器的训练过程包括:从原始数据中随机抽取正样本,并抽取相同数量但疾病标签不同的负样本;生成相同数量随机噪声,使用生成器得到生成样本;将正样本、负样本、生成样本分别输入判别器,得到判别结果;(4)模型预测模块:获取待训练全科病人的特征数据和疾病标签数据,对少样本全科疾病使用数据生成模型生成全科疾病数据;将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型,使用训练完成的全科多疾病预测模型对全科疾病进行预测。
[0007]进一步地,所述因果校验模块中,使用全科病人的二分类变量数据训练全科倾向性得分网络;将全科病人的特征变量数据和标签变量数据转换成二分类变量,对于类别变量,通过独热编码转换成二分类变量,对于连续变量,通过分箱转换至类别变量之后通过独热编码转换成二分类变量。
[0008]进一步地,所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层;输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个数M;局部连接层和sigmoid激活层均包含τM个节点,;输入层的第u个节点同局部连接层的除第到τu个节点之外的所有节点相连;第到τu个局部连接层节点同第到τu个sigmoid激活层节点一一对应连接;第到τu个sigmoid激活层节点仅同第u个输出层节点相连。
[0009]进一步地,所述全科倾向性得分网络的训练过程如下:对于每个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示,将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示,将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值;使用所有第一事件变量的预测值同所有第一事件变量的真实值计算倾向性损失。
[0010]进一步地,所述因果校验模块中,使用训练完成的全科倾向性得分网络计算全科
病人i对于第一事件变量a的全科倾向性得分,使用全科倾向性得分计算第一事件变量a同第二事件变量b的因果效应值,计算公式如下:其中n表示待研究病人总数,表示第i个病人第一事件变量真实值;表示第i个病人第二事件变量真实值。
[0011]进一步地,所述数据生成模块中,所述生成器由多层生成器模块构成,所述生成器模块包括规范化层、全连接层和激活层,所述生成器的最后一层生成器模块的激活层为sigmoid激活层;在训练过程中,将随机噪声以及对应的疾病标签输入第一生成器模块的规范化层,将规范化后的数据输入第一生成器模块的全连接层得到输入数据的第一特征表示,将第一特征表示输入第一生成器模块的激活层得到输入数据的第二特征表示,将第二特征表示作为下一层生成器模块的输入数据,最终通过最后一层生成器模块的sigmoid激活层得到生成样本。
[0012]进一步地,所述数据生成模块中,因果损失计算公式如下:其中表示原始数据的第一事件变量a同第二事件变量r的因果效应值,表示生成样本的第一事件变量a同第二事件变量r的因果效应值;表示与第二事件变量r配对的第一事件变量集合;R表示疾病统计模块得到的少样本全科疾病集合;表示少样本全科疾病r的频率。
[0013]进一步地,所述数据生成模块中,判别器对抗损失 计算公式如下:其中N为随机噪声数据量,为第i个生成样本经判别器判别为对应疾病真实数据的概率;正则项损失计算公式如下:其中表示L1范数,w表示生成器模型参数。
[0014本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于因果校验数据生成的全科多疾病预测系统,其特征在于,包括:(1)疾病统计模块:用于统计各种全科疾病样本数,根据各种全科疾病样本比率得到少样本全科疾病;(2)因果校验模块:根据全科病人的特征变量集构成第一事件变量集合,疾病标签变量集构成第二事件变量集合,任意第一事件变量同任意第二事件变量构成一个事件配对;构建并训练全科倾向性得分网络,使用训练完成的全科倾向性得分网络计算全科倾向性得分,所述全科倾向性得分表示全科病人在协变量条件下发生第一事件的概率;使用全科倾向性得分计算所有事件配对的因果效应值;(3)数据生成模块:对于少样本全科疾病,基于因果校验的生成式对抗网络构建数据生成模型,使用训练完成的数据生成模型生成模拟数据;所述数据生成模型包括生成器和判别器,所述生成器和所述判别器迭代交替训练;所述生成器的训练过程包括:对于每种少样本全科疾病生成随机噪声,将随机噪声以及对应的疾病标签输入生成器得到生成样本;计算生成样本的所有事件配对的因果效应值;将生成样本以及对应的疾病标签输入判别器,得到判别结果;所述生成器的总损失包括判别器对抗损失、因果损失和正则项损失;所述因果损失为经过少样本全科疾病频率矫正的生成样本的所有事件配对的因果效应值与原始数据的所有事件配对的因果效应值的KL散度损失;所述判别器的训练过程包括:从原始数据中随机抽取正样本,并抽取相同数量但疾病标签不同的负样本;生成相同数量随机噪声,使用生成器得到生成样本;将正样本、负样本、生成样本分别输入判别器,得到判别结果;(4)模型预测模块:获取待训练全科病人的特征数据和疾病标签数据,对少样本全科疾病使用数据生成模型生成全科疾病数据;将训练样本以及生成的全科疾病数据共同训练基于全科因果图卷积神经网络的全科多疾病预测模型,使用训练完成的全科多疾病预测模型对全科疾病进行预测。2.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述因果校验模块中,使用全科病人的二分类变量数据训练全科倾向性得分网络;将全科病人的特征变量数据和标签变量数据转换成二分类变量,对于类别变量,通过独热编码转换成二分类变量,对于连续变量,通过分箱转换至类别变量之后通过独热编码转换成二分类变量。3.根据权利要求1所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述全科倾向性得分网络包括输入层、局部连接层、sigmoid激活层和输出层;输入层节点个数和输出层节点个数均为第一事件变量集合中的第一事件变量个数M;局部连接层和sigmoid激活层均包含τM个节点,;输入层的第u个节点同局部连接层的除第到τu个节点之外的所有节点相连;第到τu个局部连接层节点同第到τu个sigmoid激活层节点一一对应连接;第到τu个sigmoid激活层节点仅同第u个输出层节点相连。4.根据权利要求3所述的基于因果校验数据生成的全科多疾病预测系统,其特征在于,所述全科倾向性得分网络的训练过程如下:
对于每个第一事件变量a,将训练样本对应的协变量数据输入局部连接层得到倾向性第一特征表示,将所述倾向性第一特征表示输入sigmoid激活层得到倾向性第二特征表示,将所述倾向性第二特征表示输入输出层得到第一事件变量a的预测值;使用所有第一事件变量的预测值同所有第一事件变量的真实...

【专利技术属性】
技术研发人员:李劲松王丰张航池胜强田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1