当前位置: 首页 > 专利查询>之江实验室专利>正文

一种面向不平衡数据的疾病预测系统技术方案

技术编号:39180587 阅读:9 留言:0更新日期:2023-10-27 08:28
本发明专利技术公开了一种面向不平衡数据的疾病预测系统,包括知识图谱构建及关系权重向量计算模块,用于构建医用知识图谱,利用医用知识图谱计算每个概念的关系权重向量;图数据表示模块,用于获取医疗图数据并学习医疗图数据的嵌入表示;图数据增广模块,用于利用GAN模型对医疗图数据中的不平衡数据进行增广,使数据保持平衡;图神经网络训练模块,用于利用增广后的医疗图数据训练第二图神经网络模型;疾病预测模块,用于将患者的图数据输入训练好的第二图神经网络模型中进行疾病预测。本发明专利技术利用知识图谱中丰富的关系信息提高生成边的质量;结合对抗生成网络模型,能够生成更真实的图数据样本,提升系统疾病预测效果。提升系统疾病预测效果。提升系统疾病预测效果。

【技术实现步骤摘要】
一种面向不平衡数据的疾病预测系统


[0001]本专利技术涉及医疗健康信息
,特别涉及一种面向不平衡数据的疾病预测系统。

技术介绍

[0002]在人工智能领域,图神经网络受到广泛关注,越来越多的学者、机构参与相关研究来分析和挖掘图数据中的信息,其中在推荐系统、健康医疗、社交网络、生物化工等领域得到广泛应用。
[0003]现实生活中的图数据存在样本、类别分布不平衡的情况,即某些类别的样本数量显著少于其它类别,称之为少数类,与此相对应的称为多数类。而现有的图神经网络算法一般是基于样本类别分布大致平衡而设计的。以医疗场景为例,医院得到的数据中患者样本的比例极不平衡,如果通过训练这些数据来构建疾病预测相关模型,会导致模型对少数类样本学习不足,无法对其做出准确的预测。
[0004]在传统机器学习领域,针对不平衡数据训练的相关算法有很多。比如在方法层面,有训练多个弱学习器,逐步调整错分样本权重,最后将所有弱学习器进行加权汇总的集成学习;以及提高少数类样本的学习权重的代价敏感学习等方法。由于图数据中样本(即节点)之间存在一定的连接关系,如果将这些方法直接应用于图数据分析,会导致数据之间的关系没有被有效利用,甚至分析效果更差的问题。而在数据层面,业界普遍采用优化数据的采样过程从而达到训练样本平衡的思路。比如将多数类样本进行降采样,而这种方法在数据极不平衡或少数类样本数量非常少的情况下容易导致训练数据不足以至于训练效果差的问题。此外,另一类方法是通过复制少数类样本进行数据增广,由于少数类样本包含的信息有限,以及生成的数据没有引入足够且有效的信息,会导致训练的模型容易发生过拟合。
[0005]目前在图神经网络领域,对此类问题的相应研究较少。2021年,Zhao等人提出GraphSMOTE,将业界比较常见的数据过采样方法
‑‑
合成少数过采样技术(SMOTE)应用于图数据中。此方法能够为少数类节点生成有差异化的新样本,但是它对边的构造过程仅考虑了节点间的相关性,合成边的准确度和可靠性有待提高。构建不合理的边会影响整体图结构,进而影响后续预测模型的效果。

技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提出一种面向不平衡数据的疾病预测系统。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种面向不平衡数据的疾病预测系统,包括:
[0008]知识图谱构建及关系权重向量计算模块,用于基于现有医学文献、专家知识中的概念和关系,构建医用知识图谱;利用医用知识图谱计算每个概念的关系权重向量;
[0009]图数据表示模块,用于获取医疗图数据,利用第一图神经网络模型来学习医疗图
数据的嵌入表示;
[0010]图数据增广模块,用于利用GAN模型对医疗图数据中的不平衡数据进行增广,使数据保持平衡,得到增广后的医疗图数据;
[0011]所述GAN模型由节点生成器、边生成器、节点判别器和边判别器组成;节点生成器用于生成合成患者节点的嵌入表示;边生成器用于将节点生成器的输出作为输入,得到合成患者节点的邻接向量;节点判别器和边判别器分别用于判断合成节点和合成患者节点的邻接向量的真实性;其中,边判别器的交叉熵结合合成患者节点的邻接向量与关系权重向量的交叉熵进行训练;
[0012]图神经网络训练模块,用于利用增广后的医疗图数据训练第二图神经网络模型;
[0013]疾病预测模块,用于使用训练好的第二图神经网络模型进行疾病预测。
[0014]进一步地,所述构建的医用知识图谱为:;其中代表知识图谱中第i个三元组,每个三元组表示两个概念与其之间的关系;概念包括症状、用药、生理指标、医学检验和疾病,关系包括从属关系、治疗关系、相关关系和因果关系;表示三元组的数量。
[0015]进一步地,所述利用医用知识图谱计算每个概念的关系权重向量具体为:
[0016]针对知识图谱中任一概念,计算与其它概念的关系权重,得到概念的关系权重向量:
[0017][0018][0019]其中代表概念与之间的关系,表示概念的数量。
[0020]进一步地,医疗图数据集合表示为,其中,C、Z分别代表概念节点集合和真实患者节点集合,概念节点包括少数类概念节点和多数类概念节点,真实患者节点包括少数类真实患者节点和多数类真实患者节点,为医疗图数据中节点数量;代表边集合;真实患者节点包含生物学信息;概念节点与知识图谱中概念对齐;
[0021]医疗图数据的节点邻接矩阵的大小为,中第行第列元素的值记为,若中第个节点与第个节点相连,则,否则;
[0022]医疗图数据的嵌入表示为,其中表示医疗图数据中第i个节点的嵌入表示。
[0023]进一步地,所述节点生成器、边生成器、节点判别器和边判别器均采用多层感知机神经网络。
[0024]进一步地,节点判别器采用交叉熵损失,记作,公式为:
[0025][0026]m为当前训练轮次中输入的节点样本数,表示第i个真实患者节点的预测值,表示第i个合成患者节点的预测值;
[0027]边判别器采用交叉熵损失,记作,公式为:
[0028][0029]计算合成患者节点的邻接向量与少数类疾病概念节点的关系权重向量的交叉熵,得到关系损失,公式为:
[0030][0031]其中,代表邻接向量中第j个元素,代表关系权重向量中的第j个元素;
[0032]记为知识损失权重参数,边判别器的总损失为:
[0033]。
[0034]进一步地,所述图数据增广模块中的GAN模型经过如下训练:
[0035]通过梯度下降法来更新节点生成器:判断合成患者节点是否与少数类真实患者节点相似,计算相似性损失;其中分别计算合成患者节点与随机k个少数类真实患者节点的内积的均值b,以及合成患者节点与随机k个多数类真实患者节点的内积均值c,具体公式为:
[0036][0037][0038][0039]其中,、分别代表少数类真实患者节点集合、多数类真实患者节点集合;
[0040]通过梯度下降法来更新节点生成器的参数:
[0041][0042]其中为节点生成器的学习系数,代表针对的梯度运算, 为节点类别权重参数;由此完成节点生成器训练的一次迭代;
[0043]通过梯度下降法来更新边生成器的参数:
[0044][0045]其中为边生成器的学习系数,代表针对的梯度运算;由此完成边生成器训练的一次迭代;
[0046]利用随机梯度下降法更新节点判别器的参数:
[0047][0048]其中为节点判别器的学习系数,代表针对的梯度运算;由此完成节点判别器训练的一次迭代;
[0049]利用随机梯度下降法更新边判别器的参数:
[0050][0051]其中代表边判别器的学习系数,代表针对的梯度运算;由此完成边判别器训练的一次迭代。
[0052]进一步地,所述第一图神经网络模型包括node2vec,SDNE,TransE,图卷积神经网络GCN,图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向不平衡数据的疾病预测系统,其特征在于,包括:知识图谱构建及关系权重向量计算模块,用于基于现有医学文献、专家知识中的概念和关系,构建医用知识图谱;利用医用知识图谱计算每个概念的关系权重向量;图数据表示模块,用于获取医疗图数据,利用第一图神经网络模型来学习医疗图数据的嵌入表示;图数据增广模块,用于利用GAN模型对医疗图数据中的不平衡数据进行增广,使数据保持平衡,得到增广后的医疗图数据;所述GAN模型由节点生成器、边生成器、节点判别器和边判别器组成;节点生成器用于生成合成患者节点的嵌入表示;边生成器用于将节点生成器的输出作为输入,得到合成患者节点的邻接向量;节点判别器和边判别器分别用于判断合成节点和合成患者节点的邻接向量的真实性;其中,边判别器的交叉熵结合合成患者节点的邻接向量与关系权重向量的交叉熵进行训练;图神经网络训练模块,用于利用增广后的医疗图数据训练第二图神经网络模型;疾病预测模块,用于使用训练好的第二图神经网络模型进行疾病预测。2.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述构建的医用知识图谱为:;其中代表知识图谱中第i个三元组,每个三元组表示两个概念与其之间的关系;概念包括症状、用药、生理指标、医学检验和疾病,关系包括从属关系、治疗关系、相关关系和因果关系;表示三元组的数量。3.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述利用医用知识图谱计算每个概念的关系权重向量具体为:针对知识图谱中任一概念,计算与其它概念的关系权重,得到概念的关系权重向量::其中代表概念与之间的关系,表示概念的数量。4.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,医疗图数据集合表示为,其中,C、Z分别代表概念节点集合和真实患者节点集合,概念节点包括少数类概念节点和多数类概念节点,真实患者节点包括少数类真实患者节点和多数类真实患者节点,为医疗图数据中节点数量;代表边集合;真实患者节点包含生物学信息;概念节点与知识图谱中概念对齐;医疗图数据的节点邻接矩阵的大小为,中第行第列元素的值记为,若中第个节点与第个节点相连,则,否则;医疗图数据的嵌入表示为,其中表示医疗图数据中第i个节点的嵌入表示。5.根据权利要求1所述的面向不平衡数据的疾病预测系统,其特征在于,所述节点生成器、边生成器、节点判别器和边判别器均采用多层感知机神经网络。
6.根据权利要求1所述的面向不平衡数据的疾病...

【专利技术属性】
技术研发人员:李劲松谭笑池胜强周天舒田雨
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1