一种高维删失数据下预测癌症预后风险的系统和方法技术方案

技术编号：30097535 阅读：52 留言：0更新日期：2021-09-18 09:01

本发明专利技术提出一种高维删失数据下预测癌症预后风险的方法，包括：构建Cox神经网络模型，获取目标数据库的训练数据集、验证数据集；根据贝叶斯先验知识约束对训练数据集进行随机采样扰动；根据随机采样扰动后的训练数据集合，定义Cox神经网络模型的风险函数并计算损失函数；通过损失函数对Cox神经网络模型进行训练，更新Cox神经网络模型的网络权重；利用验证数据集对更新后的网络权重进行验证，若验证通过，则得到深度贝叶斯扰动模型，对目标癌症患者的癌症预后风险进行预测；否则，重新进行随机采样扰动；本发明专利技术还提出一种预测癌症预后风险的系统，用于解决现有预测方法在此类数据中表现不佳的问题，提高癌症生存分析的深度学习方法的性能。习方法的性能。习方法的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种高维删失数据下预测癌症预后风险的系统和方法

[0001]本专利技术涉及癌症预后生存分析领域，具体涉及一种高维删失数据下预测癌症预后风险的系统和方法。

技术介绍

[0002]随着医学辅助技术的发展，研究者越来越多地尝试将其应用于癌症的辅助治疗。其中，癌症预后生存分析是一种关键的辅助技术，它能根据病人的各项生理指标去预测病人的潜在风险，从而帮助医生选择相应的治疗方案。
[0003]癌症生存分析的最大难点在于利用删失样本的信息，揭示高维组学数据对患者预后风险的复杂关联机制。现有技术包括：针对删失数据设计的一种数理统计方法：Cox比例风险模型(简称Cox模型)应用到深度学习中，将Cox比例风险的线性函数替换为用神经网络拟合的函数，建立了基于Cox比例风险的神经网络模型，并将该深度学习模型应用于样本数量较多的疾病预后生存分析；将基于Cox比例风险的神经网络模型应用于癌症患者的生存分析中，并且结合了正则化、Dropout等多项深度学习的优化技术，用于提升模型在小样本数据的预测精度。然而，此方法将对数据样本量要求较高的深度学习模型应用于小样本数据集中，也没有对删失数据做进一步的处理，因此让拟合能力强的神经网络对删失数据的预测具有偏向性，存在较强的过拟合问题。现有技术针对此问题，修改了Cox模型中的比例风险假设，向模型引入了时间信息，提升了基于Cox比例风险的神经网络模型在样本较多的数据集中的性能。该改良方法主要提升了基于Cox比例风险的神经网络模型在样本量较多，时间信息格式符合要求的数据集中的表现，没有解决基于Cox比...

【技术保护点】

【技术特征摘要】
1.一种高维删失数据下预测癌症预后风险的方法，其特征在于，包括以下步骤：S1：构建Cox神经网络模型，获取目标数据库的训练数据集、验证数据集；S2：根据贝叶斯先验知识约束对训练数据集进行随机采样扰动；S3：根据随机采样扰动后的训练数据集合，定义Cox神经网络模型的风险函数并计算损失函数；S4：通过损失函数对Cox神经网络模型进行训练，更新Cox神经网络模型的网络权重；S5：利用验证数据集对更新后的网络权重进行验证，若验证通过，则得到深度贝叶斯扰动模型，执行步骤S6；否则，则返回步骤S2重新进行随机采样扰动；S6：将目标癌症患者的数据输入深度贝叶斯扰动模型中，输出该患者的癌症预后风险的预测值。2.根据权利要求1所述的一种高维删失数据下预测癌症预后风险的方法，其特征在于，在所述步骤S2中，所述贝叶斯先验知识约束表示删失数据生存时间存在上界，且不会偏离非删失数据生存时间过多的约束；其中，删失数据和非删失数据存在于所述训练数据集中；训练数据集还包括生存时间；所述步骤S2具体过程为：对训练数据集中的样本按照生存时间进行排序，并将生存时间转换为排序值；将转换后的排序值作为高斯分布的均值，根据设置的高斯分布的方差，从该分布中重新采用得到样本新的生存时间，完成随机采用扰动。3.根据权利要求2所述的一种高维删失数据下预测癌症预后风险的方法，其特征在于，在所述随机采样扰动过程中，对于拥有删失数据的删失样本，通过设置一个常数值，若该删失样本采样的结果处于高斯分布右侧比例为设置的常数值的面积中，那么该样本将被标记为非删失样本。4.根据权利要求2所述的一种高维删失数据下预测癌症预后风险的方法，其特征在于，在所述步骤S3中，定义Cox神经网络模型的生存函数S(t)，具体表示为：S(t)＝Pr，其中，Pr表示患者在时间t之前的存活率，t小于数据收集到患者最后一次观察的时间，即生存时间T；由此，t时刻的风险函数定义为：其中，δ表示常数；根据风险函数的定义，得到Cox比例风险函数为：λ(t|x)＝λ0(t)*exp
h(x)
其中，x∈X，X表示训练数据集中所有患者的组学数据，x表示影响患者生存时间的协变量，风险函数h(x)＝βx
i
，λ0(t)代表t时刻的基线风险函数，β为常数，表示风险函数是患者生存时间协变量的线性组合；因此Cox神经网络模型的优化目标，也即最大似然函数表示为：其中，E
i
表示样本i的删失标签，E
i
＝1表示非删失样本，E
i
＝0表示删失样本；R(T
i
)表示在样本i死亡时，仍然存活的样本集合，j为该样本集合的个体；由此，基于Cox比例风险的神经网络的损失函数为：
其中，θ表示Cox神经网络模型的网络权重；接着对预测损失函数进行改写，得到通过扰动采样机制引入贝叶斯先验知识后的损失函数，具体表示为：其中，T
ipb
表示经过扰动后的新的生存时间；接着，结合深度学习优化技术，向损失函数中引入L2正则化项，损失函数最终表示为：5.根据权利要求4所述的一种高维删失数据下预测癌症预后风险的方法，其特征在于，在所述步骤S6中，首先获取目标癌症患者的组学数据X、生存时间T和删失标签E，将其作为深度贝叶斯扰动模型的输入，由深度贝叶斯扰动模型进行风险预测，最后输出目标癌症患者的风险预测值。6.一种高维删失数据下预测癌症预后风险的系统，用于实现如权利要求1～5任一项所述的一种高维删失数据下预测癌症预后风险的方法；其特征在于，包括...

【专利技术属性】
技术研发人员：杨跃东，张仲岳，柴华，王一，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人