【技术实现步骤摘要】
一种基于图对比学习的癌症生存预测模型构建方法
[0001]本专利技术涉及信息
,具体涉及一种基于图对比学习的癌症生存预测模型构建方法。
技术介绍
[0002]癌症是全球疾病负担的主要原因,具有较高的发病率和死亡率。癌症生存预测是指对癌症患者的生存风险进行预测,得到癌症患者的生存结果,这对辅助医生优化治疗措施有重要意义,能够改善癌症患者的长期预后情况,有效避免过度治疗及医疗资源的浪费。
[0003]癌症生存预测研究主要分为风险因素识别和生存预测两类。风险因素识别主要采用传统统计方法研究影响癌症生存预后的风险因素,如突变基因和临床特征等,此类研究常常受限于样本来源,研究样本数量较少。随着医疗信息化的发展,电子医疗数据的积累为基于机器学习的癌症生存预测研究奠定了基石,现有的预测方法主要基于COX、Lasso回归分析和神经网络等模型实现,而用于预测使用的变量通常包括组学、临床和医学影像类数据。
[0004]近年来研究人员发现癌症患者的共病情况,即癌症患者确诊前患有的一种或多种其他疾病,与癌症预后之间存在着一定关联。尽管共病可能影响着癌症的生存预后,但目前的癌症生存预测方法却往往忽略了共病与生存状况的关系,并未对患者共病这一重要特征进行建模,因而限制了生存预测模型的效果。
技术实现思路
[0005]针对现有技术中存在的问题,本专利技术提供一种基于图对比学习的癌症生存预测模型构建方法,其目的在于:考虑癌症患者的历史共病记录对癌症的生存状态的影响,获得更准确的预测效果。
[0006]本 ...
【技术保护点】
【技术特征摘要】
1.一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,包括如下步骤:S1:获取癌症患者的临床数据和历史共病数据,并对临床数据和历史共病数据进行预处理;S2:构建患者疾病关系图,并用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示;S3:基于S2,以ICD
‑
10疾病分类标准为依据,构建正负疾病样本对;S4:基于S2、S3和图卷积网络生成疾病节点的特征表示,通过投影生成疾病节点的对比表征,并构建对比损失;S5:基于患者疾病关系图结构和图神经网络生成癌症患者的特征表示,并构建分类损失;S6:模型训练、优化损失函数并对癌症患者的生存情况进行分类预测。2.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S2中构建患者疾病关系图具体为:构建患者疾病关系图G=(V,E),V为点集,E为边集;所述患者疾病关系图中,V可划分为两个互不相交的节点子集V
p
和V
d
,其中V
p
中每个节点表示一个癌症患者,V
d
中的每个节点表示一个癌症群体的慢性共病;若患者p患有疾病d,则将表示患者p的节点与表示疾病d的节点相连,最终由所有的患者
‑
疾病连边构成边集E。3.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S2中用相关临床特征初始化癌症患者特征表示,用独热编码初始化疾病特征表示具体为:癌症患者的临床特征包括人口统计学信息、治疗信息和病理学信息,选用对应特征作为癌症患者节点的初始特征表示其中p
i
表示第i位癌症患者;用独热编码初始化疾病节点的特征表示,具体的,第i个疾病节点d
i
的初始特征表示4.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S3中以ICD
‑
10疾病分类标准为依据,构建正负疾病样本对具体为:以ICD
‑
10分类标准为基础,对于一个疾病A,从它所在的疾病组中随机选取另一个疾病B,构成正样本对(A,B);同时通过采样获得k个负样本对,负样本对具体采样方法为:首先随机选取k1个与疾病A不在同一疾病章节的疾病作为第一负样本;再从疾病A处于相同疾病章节但不同疾病组的疾病中随机选取k
‑
k1个疾病,作为第二负样本,第二负样本的占比通过调节(k
‑
k1)与k的比值决定;所述k个负样本分别和第一负样本、第二负样本构成k对负样本对。5.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S4中基于图卷积网络生成疾病节点的特征表示,通过投影器生成疾病节点的对比表征具体为:在患者疾病关系图G中,疾病节点的一阶邻居均为患者节点,患者节点的一阶邻居均为疾病节点;首先,基于患者疾病关系图G,以图卷积网络为特征提取编码器,获取每个疾病节点的特征表示特别的,当图卷积网络的层数定义为1层时,疾病节点的特征表示是对患
有该疾病的所有癌症患者的特征聚合表示,然后将每个疾病的特征表示输入到投影器得到对比表征所述的投影器结构为两层的全连接网络。6.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S4中构建对比损失具体为:依据ICD
‑
10分类标准,相同疾病组内的疾病应该具有更相似的表征,而不同疾病组或不同疾病章节的疾病表征间应该具有更低的相似性,基于此,在经过S4中定义的图卷积网络编码器和投影器得到每个疾病节点的对比表征后,构建对比损失函数L
marginNCE
,具体的,L
marginNCE
的计算方法如下:其中,N为疾病节点总数;表示一对正样本对;表示一对负样本对;V
‑
表示由d
i
的k个负样本构成的集合;τ为超参数;sim(d
i
,d
j
)是度量疾病d
i
和d
j
相似性的函数,具体的,其中,和为通过S4中定义的图卷积网络编码器和投影器得到的疾病节点d
i
和d
j
的对比表征,和表示和的模长;m为决策边界且m<0。7.根据权利要求1所述的一种基于图对比学习的癌症生存预测模型构建方法,其特征在于,所述S5中生成癌症患者特征表示具体为:癌症患者p的特征表示是基于患者疾病关系图的结构,结合临床特征和历史共病信息共同生成的;具体的,由临床特征表示共病邻居聚合表示和癌症患者邻居聚合表示构成;癌症患者的最终特征表示h
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。