System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,特别涉及一种基于掩码自编码器的癌症生存预测方法、模型预训练方法及装置。
技术介绍
1、准确地生存预测可以指导临床医生为癌症患者制定最佳治疗方案,从而延长患者的生存时间和提高生活质量。近年来,尽管整合多模态数据(包括组织病理学图像和多组学数据)的癌症生存预测方法取得了一些进展,但准确预测患者生存概率仍然是一项极具挑战性的任务。现有的基于深度学习的方法没有通过整合病理学图像和多组学数据来进行预训练,忽略了不同模态之间的内在关联,导致生存预测准确性较低。
2、因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种癌症生存预测方法、模型预训练方法及装置,能够有效提高癌症生存预测的准确性。其具体方案如下:
2、第一方面,本申请公开了一种基于掩码自编码器的癌症生存预测模型预训练方法,包括:
3、获取癌症患者样本的病理学图像以及多组学数据;
4、分别对所述病理学图像和所述多组学数据进行预处理,以得到与所述病理学图像对应的病理学图像区域和与所述多组学数据对应的特征/基因序列;
5、将所述病理学图像区域裁剪为第一预设数量的不重叠的第一图像块;其中,所述第一图像块中包括第二预设数量的进行随机遮掩的第二图像块和第三预设数量的未遮掩的第三图像块,所述第一预设数量等于所述第二预设数量与第三预设数量之和;
6、将所述第一图像块输入卷积神
7、利用所述病理学图像的初始表示中与所述第三图像块对应的初始表示拼接所述多组学数据的初始表示,以得到拼接结果;
8、将所述拼接结果输入编码器以得到编码结果,并在所述编码结果中插入所述病理学图像的初始表示中与所述第二图像块对应的初始表示,然后输入解码器进行解码,以得到解码结果;
9、基于所述解码结果分别进行病理学图像重构以及多组学数据重构,以得到相应的第一损失值和第二损失值;
10、基于所述第一损失值和所述第二损失值调整预训练模型的参数,以得到目标癌症生存预测模型。
11、可选的,对所述病理学图像进行预处理,以得到与所述病理学图像对应的病理学图像区域,包括:
12、利用滑动窗口按照预设滑动步长对所述病理学图像进行滑动窗口取值,以将所述病理学图像裁剪为多个重叠区域;
13、统计每个所述重叠区域内的像素值之和,并将所述像素值之和中最大的像素值之和对应的目标区域作为所述病理学图像对应的病理学图像区域。
14、可选的,对所述多组学数据进行预处理,以得到与所述多组学数据对应的特征/基因序列,包括:
15、针对所述多组学数据中的每个组学类型,计算每个特征/基因的方差,以便根据所述方差过滤没有包含任何信息量的特征/基因得到第一过滤结果;
16、基于所述第一过滤结果进行差异表达分析,以便根据差异表达分析结果过滤表达差异满足预设过滤条件的特征/基因得到第二过滤结果;
17、基于所述第二过滤结果使用随机生存森林模型计算特征/基因重要程度并对所述特征/基因重要程度进行从大到小排序,以得到相应的排序结果;
18、针对每个所述组学类型,根据所述排序结果从第一个特征/基因向后提取第四预设数量的特征/基因,以得到与所述多组学数据对应的特征/基因序列。
19、可选的,基于所述解码结果进行病理学图像重构以得到第一损失值,包括:
20、确定所述解码结果中与第一目标节点对应的第一目标解码结果,并将所述第一目标解码结果经过全连接神经网络进行线性变换,以得到第一目标序列;所述第一目标节点为所述解码结果对应的序列中从后往前与所述第一预设数量对应的节点;
21、基于所述第一目标序列以及与所述第一图像块对应的原始像素值,使用第一交叉熵损失函数进行计算以得到第一损失值。
22、可选的,基于所述解码结果进行多组学数据重构以得到第二损失值,包括:
23、确定所述解码结果中与第二目标节点对应的第二目标解码结果,并将所述第二目标解码结果经过全连接神经网络进行线性变换,以得到第二目标序列;所述第二目标节点为所述解码结果对应的序列中除所述第一目标节点外剩余的节点;
24、基于所述第二目标序列以及对所述多组学数据进行预处理后得到的特征/基因序列,使用第二交叉熵损失函数进行计算以得到第二损失值。
25、第二方面,本申请公开了一种基于掩码自编码器的癌症生存预测方法,包括:
26、获取癌症患者样本的待预测病理学图像以及待预测多组学数据;
27、将所述待预测病理学图像和所述待预测多组学数据输入至利用如前所述的基于掩码自编码器的癌症生存预测模型预训练方法得到的目标癌症生存预测模型,以得到相应的癌症生存预测结果。
28、可选的,将所述待预测病理学图像和所述待预测多组学数据输入至目标癌症生存预测模型,以得到相应的癌症生存预测结果,包括:
29、分别对所述待预测病理学图像和所述待预测多组学数据进行预处理,以得到与所述待预测病理学图像对应的待预测病理学图像区域和与所述待预测多组学数据对应的待预测特征/基因序列;
30、将所述待预测病理学图像区域裁剪为第五预设数量的不重叠的图像块;
31、将所述第五预设数量的不重叠的图像块输入卷积神经网络以输出待预测病理学图像的初始表示,将所述待预测特征/基因序列输入全连接神经网络以输出待预测多组学数据的初始表示;
32、利用所述待预测病理学图像的初始表示拼接所述待预测多组学数据的初始表示,以得到当前拼接结果;
33、将所述当前拼接结果输入编码器以得到当前编码结果,并确定所述当前编码结果中与第三目标节点对应的编码结果和与第四目标节点对应的编码结果;所述第三目标节点为所述当前拼接结果对应的序列中从后往前与所述第五预设数量对应的节点;所述第四目标节点为所述当前拼接结果对应的序列中除所述第三目标节点外剩余的节点;
34、分别对所述与第三目标节点对应的编码结果和所述与第四目标节点对应的编码结果进行平均池化处理,以输出病理学模态结果编码和多组学结果编码;
35、计算所述病理学模态结果编码和所述多组学结果编码之间的余弦相似度,并将所述余弦相似度作为所述目标癌症生存预测模型的生存分析的风险评分值以得到相应的癌症生存预测结果。
36、可选的,所述将所述余弦相似度作为所述目标癌症生存预测模型的生存分析的风险评分值以得到相应的癌症生存预测结果之后,还包括:
37、获取所述癌症患者样本的生存时间和死亡时间;
38、基于所述生存时间、所述死亡时间以及所述风险评分值,利用平均负对数似然函数计算所述目标癌症生存预测模型的模型损失,以便根据所述本文档来自技高网...
【技术保护点】
1.一种基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,包括:
2.根据权利要求1所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,对所述病理学图像进行预处理,以得到与所述病理学图像对应的病理学图像区域,包括:
3.根据权利要求1所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,对所述多组学数据进行预处理,以得到与所述多组学数据对应的特征/基因序列,包括:
4.根据权利要求1所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,基于所述解码结果进行病理学图像重构以得到第一损失值,包括:
5.根据权利要求4所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,基于所述解码结果进行多组学数据重构以得到第二损失值,包括:
6.一种基于掩码自编码器的癌症生存预测方法,其特征在于,包括:
7.根据权利要求6所述的基于掩码自编码器的癌症生存预测方法,其特征在于,将所述待预测病理学图像和所述待预测多组学数据输入至目标癌症生存预测模型,以得到相应的癌症生存预测结果,包
8.根据权利要求7所述的基于掩码自编码器的癌症生存预测方法,其特征在于,所述将所述余弦相似度作为所述目标癌症生存预测模型的生存分析的风险评分值以得到相应的癌症生存预测结果之后,还包括:
9.一种基于掩码自编码器的癌症生存预测模型预训练装置,其特征在于,包括:
10.一种基于掩码自编码器的癌症生存预测装置,其特征在于,包括:
...【技术特征摘要】
1.一种基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,包括:
2.根据权利要求1所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,对所述病理学图像进行预处理,以得到与所述病理学图像对应的病理学图像区域,包括:
3.根据权利要求1所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,对所述多组学数据进行预处理,以得到与所述多组学数据对应的特征/基因序列,包括:
4.根据权利要求1所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,基于所述解码结果进行病理学图像重构以得到第一损失值,包括:
5.根据权利要求4所述的基于掩码自编码器的癌症生存预测模型预训练方法,其特征在于,基于所述解...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。