当前位置: 首页 > 专利查询>中山大学专利>正文

一种高维删失数据下预测癌症预后风险的系统和方法技术方案

技术编号:30097535 阅读:52 留言:0更新日期:2021-09-18 09:01
本发明专利技术提出一种高维删失数据下预测癌症预后风险的方法,包括:构建Cox神经网络模型,获取目标数据库的训练数据集、验证数据集;根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;利用验证数据集对更新后的网络权重进行验证,若验证通过,则得到深度贝叶斯扰动模型,对目标癌症患者的癌症预后风险进行预测;否则,重新进行随机采样扰动;本发明专利技术还提出一种预测癌症预后风险的系统,用于解决现有预测方法在此类数据中表现不佳的问题,提高癌症生存分析的深度学习方法的性能。习方法的性能。习方法的性能。

【技术实现步骤摘要】
一种高维删失数据下预测癌症预后风险的系统和方法


[0001]本专利技术涉及癌症预后生存分析领域,具体涉及一种高维删失数据下预测癌症预后风险的系统和方法。

技术介绍

[0002]随着医学辅助技术的发展,研究者越来越多地尝试将其应用于癌症的辅助治疗。其中,癌症预后生存分析是一种关键的辅助技术,它能根据病人的各项生理指标去预测病人的潜在风险,从而帮助医生选择相应的治疗方案。
[0003]癌症生存分析的最大难点在于利用删失样本的信息,揭示高维组学数据对患者预后风险的复杂关联机制。现有技术包括:针对删失数据设计的一种数理统计方法:Cox比例风险模型(简称Cox模型)应用到深度学习中,将Cox比例风险的线性函数替换为用神经网络拟合的函数,建立了基于Cox比例风险的神经网络模型,并将该深度学习模型应用于样本数量较多的疾病预后生存分析;将基于Cox比例风险的神经网络模型应用于癌症患者的生存分析中,并且结合了正则化、Dropout等多项深度学习的优化技术,用于提升模型在小样本数据的预测精度。然而,此方法将对数据样本量要求较高的深度学习模型应用于小样本数据集中,也没有对删失数据做进一步的处理,因此让拟合能力强的神经网络对删失数据的预测具有偏向性,存在较强的过拟合问题。现有技术针对此问题,修改了Cox模型中的比例风险假设,向模型引入了时间信息,提升了基于Cox比例风险的神经网络模型在样本较多的数据集中的性能。该改良方法主要提升了基于Cox比例风险的神经网络模型在样本量较多,时间信息格式符合要求的数据集中的表现,没有解决基于Cox比例风险的神经网络模型在小样本数据集中的过拟合问题,方法的性能被限制。
[0004]中国专利技术专利公开号CN111312393A(公开日为2020

06

19),公开了一种结合主动学习的时序深度生存分析系统,该系统包括数据采集模块、主动学习模块、时序深度生存分析模块;数据采集模块用于获取待分析对象的生存数据;主动学习模块结合主动学习方法选择部分右删失数据标注生存时间;时序深度生存分析模块构建时序深度生存分析神经网络模型,将未删失数据和右删失数据作为模型输入,得到待分析对象的生存时间预测结果。该专利技术能够充分利用生存数据中的右删失数据及时序特征。较之以往传统的生存分析模型,该专利技术解决了高维度数据难处理的问题,以及生存分析中仅有少量未删失数据情况下模型表现不佳的问题;同时增加了数据时间维度特征的提取和利用,扩大了模型的应用范围,提高了模型的表现效果,但是存在时间复杂度高,算力开销大,普适性不够高的缺陷。

技术实现思路

[0005]本专利技术的目的是针对现有技术存在的缺陷,提供一种时间复杂度低、算力开销小、普适性高的高维删失数据下预测癌症预后风险的系统和方法。
[0006]为解决上述技术问题,本专利技术的技术方案如下:
[0007]一种高维删失数据下预测癌症预后风险的方法,包括以下步骤:
[0008]S1:构建Cox神经网络模型,获取目标数据库的训练数据集、验证数据集;
[0009]S2:根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;
[0010]S3:根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;
[0011]S4:通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;
[0012]S5:利用验证数据集对更新后的网络权重进行验证,若验证通过,则得到深度贝叶斯扰动模型,执行步骤S6;否则,则返回步骤S2重新进行随机采样扰动;
[0013]S6:将目标癌症患者的数据输入深度贝叶斯扰动模型中,输出该患者的癌症预后风险的预测值。
[0014]其中,在所述步骤S2中,所述贝叶斯先验知识约束表示删失数据生存时间存在上界,且不会偏离非删失数据生存时间过多的约束;其中,删失数据和非删失数据存在于所述训练数据集中;训练数据集还包括生存时间;所述步骤S2具体过程为:
[0015]对训练数据集中的样本按照生存时间进行排序,并将生存时间转换为排序值,具体表示为:T
i
'=Rank(T
i
)=i,其中,下标i表示第i个样本;T
i
'表示经过排序预处理后的新的生存时间;
[0016]将转换后的排序值作为高斯分布的均值,根据设置的常数α作为高斯分布的方差,从该分布中重新采用得到样本新的生存时间,具体表示为T
ipb
~N(T
i
',α);T
ipb
表示经过扰动后的新的生存时间;从而完成随机采用扰动。
[0017]上述方案中,考虑到贝叶斯先验知识无法显示地写成积分表达式,因此采用了蒙特卡洛采样方法的思想,用通过采用的方法近似地引入先验信息,达到替换积分表达式的作用。
[0018]其中,在所述随机采样扰动过程中,对于拥有删失数据的删失样本,通过设置一个常数值γ,若该删失样本采样的结果处于高斯分布右侧比例为γ的面积中,那么该样本将被标记为非删失样本,具体表示为:
[0019][0020]上述方案中,在每次需要对Cox神经网络模型进行训练时,均需要进行随机采用扰动操作,再将得到的样本输入到Cox神经网络模型中进行训练。
[0021]其中,在所述步骤S3中,定义Cox神经网络模型的生存函数S(t),具体表示为:S(t)=Pr,其中,Pr表示患者在时间t之前的存活率,t小于数据收集到患者最后一次观察的时间,即生存时间T;由此,t时刻的风险函数定义为:
[0022][0023]其中,δ表示常数;根据风险函数的定义,得到Cox比例风险函数为:
[0024]λ(t|x)=λ0(t)*exp
h(x)
[0025]其中,x∈X,X表示训练数据集中所有患者的组学数据,x表示影响患者生存时间的协变量,风险函数h(x)=βX
i
,λ0(t)代表t时刻的基线风险函数,β为常数,表示风险函数是患者生存时间协变量的线性组合;因此Cox神经网络模型的优化目标,也即最大似然函数表示
为:
[0026][0027]其中,E
i
表示样本i的删失标签,E
i
=1表示非删失样本,E
i
=0表示删失样本;R(T
i
)表示在样本i死亡时,仍然存活的样本集合,j为该样本集合的个体;由此,基于Cox比例风险的神经网络的损失函数为:
[0028][0029]其中,θ表示Cox神经网络模型的网络权重;接着对预测损失函数进行改写,得到通过扰动采样机制引入贝叶斯先验知识后的损失函数,具体表示为:
[0030][0031]其中,T
ipb
表示经过扰动后的新的生存时间;接着,结合深度学习优化技术,向损失函数中引入L2正则化项,损失函数最终表示为:
[0032][0033]其中,在所述步骤S6中,首先获取目标癌症患者的组学数据X本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高维删失数据下预测癌症预后风险的方法,其特征在于,包括以下步骤:S1:构建Cox神经网络模型,获取目标数据库的训练数据集、验证数据集;S2:根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;S3:根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;S4:通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;S5:利用验证数据集对更新后的网络权重进行验证,若验证通过,则得到深度贝叶斯扰动模型,执行步骤S6;否则,则返回步骤S2重新进行随机采样扰动;S6:将目标癌症患者的数据输入深度贝叶斯扰动模型中,输出该患者的癌症预后风险的预测值。2.根据权利要求1所述的一种高维删失数据下预测癌症预后风险的方法,其特征在于,在所述步骤S2中,所述贝叶斯先验知识约束表示删失数据生存时间存在上界,且不会偏离非删失数据生存时间过多的约束;其中,删失数据和非删失数据存在于所述训练数据集中;训练数据集还包括生存时间;所述步骤S2具体过程为:对训练数据集中的样本按照生存时间进行排序,并将生存时间转换为排序值;将转换后的排序值作为高斯分布的均值,根据设置的高斯分布的方差,从该分布中重新采用得到样本新的生存时间,完成随机采用扰动。3.根据权利要求2所述的一种高维删失数据下预测癌症预后风险的方法,其特征在于,在所述随机采样扰动过程中,对于拥有删失数据的删失样本,通过设置一个常数值,若该删失样本采样的结果处于高斯分布右侧比例为设置的常数值的面积中,那么该样本将被标记为非删失样本。4.根据权利要求2所述的一种高维删失数据下预测癌症预后风险的方法,其特征在于,在所述步骤S3中,定义Cox神经网络模型的生存函数S(t),具体表示为:S(t)=Pr,其中,Pr表示患者在时间t之前的存活率,t小于数据收集到患者最后一次观察的时间,即生存时间T;由此,t时刻的风险函数定义为:其中,δ表示常数;根据风险函数的定义,得到Cox比例风险函数为:λ(t|x)=λ0(t)*exp
h(x)
其中,x∈X,X表示训练数据集中所有患者的组学数据,x表示影响患者生存时间的协变量,风险函数h(x)=βx
i
,λ0(t)代表t时刻的基线风险函数,β为常数,表示风险函数是患者生存时间协变量的线性组合;因此Cox神经网络模型的优化目标,也即最大似然函数表示为:其中,E
i
表示样本i的删失标签,E
i
=1表示非删失样本,E
i
=0表示删失样本;R(T
i
)表示在样本i死亡时,仍然存活的样本集合,j为该样本集合的个体;由此,基于Cox比例风险的神经网络的损失函数为:
其中,θ表示Cox神经网络模型的网络权重;接着对预测损失函数进行改写,得到通过扰动采样机制引入贝叶斯先验知识后的损失函数,具体表示为:其中,T
ipb
表示经过扰动后的新的生存时间;接着,结合深度学习优化技术,向损失函数中引入L2正则化项,损失函数最终表示为:5.根据权利要求4所述的一种高维删失数据下预测癌症预后风险的方法,其特征在于,在所述步骤S6中,首先获取目标癌症患者的组学数据X、生存时间T和删失标签E,将其作为深度贝叶斯扰动模型的输入,由深度贝叶斯扰动模型进行风险预测,最后输出目标癌症患者的风险预测值。6.一种高维删失数据下预测癌症预后风险的系统,用于实现如权利要求1~5任一项所述的一种高维删失数据下预测癌症预后风险的方法;其特征在于,包括...

【专利技术属性】
技术研发人员:杨跃东张仲岳柴华王一
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1