一种用于癌症生存预测的多模态预训练方法、装置及设备制造方法及图纸

技术编号：41306703 阅读：2 留言：0更新日期：2024-05-13 14:51

本申请公开了一种用于癌症生存预测的多模态预训练方法、装置及设备，涉及人工智能领域，包括：获取患者样本的病理学图像和多组学数据，并分别进行预处理；分别对处理后病理学图像和处理后多组学数据进行编码，得到第一编码及第二编码；基于第一编码及第二编码确定对比损失，将第二编码输入预设的自注意力模块，以得到自注意力值，基于自注意力值与第一编码进行交叉注意力计算，根据计算结果确定目标编码；基于目标编码及病理学图像和多组学数据之间的匹配结果确定交叉熵损失，根据对比损失和交叉熵损失反向传播以进行模型参数的优化，基于优化后的模型参数完成模型的预训练。本申请能够充分交互多模态信息，提高癌症生存预测任务的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别涉及一种用于癌症生存预测的多模态预训练方法、装置及设备。

技术介绍

1、为了给癌症患者提供最佳的治疗方案和更好的生活质量，临床医生需要准确地预测癌症患者的生存率。近年来，基于组织病理学图像和多组学数据的多模态整合方法在癌症生存预测方面已取得一定的进展。然而，现有多模态方法在整合病理学图像和多组学数据之前忽略了两个模态之间信息的对齐，即使得同一个患者的病理学图像和多组学数据在样本空间上尽可能的相近，同时使得不同患者的病理学图像和多组学数据在样本空间尽可能的远离。因此，没有对齐而直接整合多模态信息，最终得到的多模态编码的质量不高，导致癌症生存预测的准确度仍有待进一步提高。如何提高癌症生存预测的准确度成为了目前亟待解决的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种用于癌症生存预测的多模态预训练方法、装置及设备，能够使得多模态信息充分的交互，提高癌症生存预测任务的准确率。其具体方案如下：

2、第一方面，本申请公开了一种用于癌症生存预测的多模态预训练方法，包括：

3、获取患者样本的病理学图像和多组学数据，对所述病理学图像和所述多组学数据分别进行预处理，以得到处理后病理学图像以及处理后多组学数据；

4、利用相应的编码器分别对所述处理后病理学图像和所述处理后多组学数据进行编码，得到所述处理后病理学图像对应的第一编码以及所述处理后多组学数据对应的第二编码；

5、基于所述第一编码以及所述第二编码确定对

6、基于所述目标编码以及预先确定的所述病理学图像和所述多组学数据之间的匹配结果确定交叉熵损失，根据所述对比损失和所述交叉熵损失反向传播以进行模型参数的优化，基于优化后的模型参数完成模型的预训练。

7、可选的，所述对所述病理学图像和所述多组学数据分别进行预处理，以得到处理后病理学图像以及处理后多组学数据，包括：

8、利用clam算法对所述病理学图像进行识别，并从相应的识别后病理学图像中提取目标高价值区域；

9、将所述目标高价值区域裁剪为目标尺寸且不重叠的若干张切片，以得到处理后病理学图像；

10、基于所述多组学数据对应的各组学类型计算所述多组学数据中各特征或基因表达的方差值，并过滤所述方差值为0的所述特征或基因，以确定过滤后数据；

11、基于所述过滤后数据进行差异表达分析，确定分析结果，以便基于所述分析结果对符合预设条件的特征或基因进行保留，以确定保留后特征或基因；

12、利用随机生存森林算法计算所述保留后特征或基因的重要程度，并将相应的计算结果按照从大到小的规则进行排序，以得到排序后结果；

13、从所述排序后结果中提取预设位次的特征或基因，以便基于相应的提取后结果确定处理后多组学数据。

14、可选的，所述利用相应的编码器分别对所述处理后病理学图像和所述处理后多组学数据进行编码，得到所述处理后病理学图像对应的第一编码以及所述处理后多组学数据对应的第二编码，包括：

15、将若干张所述切片依次输入至目标视觉transformer中，以得到所述处理后病理学图像对应的第一编码；其中所述目标视觉transformer包括自注意力机制和前馈神经网络；

16、将所述处理后多组学数据与预先确定的cls节点进行拼接，以得到目标序列；

17、分别利用目标全连接神经网络和所述自注意力机制对所述目标序列进行编码，以得到所述处理后多组学数据对应的第二编码。

18、可选的，所述基于所述第一编码以及所述第二编码确定对比损失，包括：

19、将所述第一编码输入至全局注意力池化模块进行聚合处理，以根据相应的聚合后结果确定病理图编码；

20、从所述第二编码中选取预先确定的cls节点对应的编码，以根据相应的选取后编码确定多组学编码；

21、基于所述病理图编码和所述多组学编码确定所述对比损失。

22、可选的，所述基于所述自注意力值与所述第一编码进行交叉注意力计算，根据相应的计算结果确定目标编码，包括：

23、基于所述自注意力值与所述第一编码进行交叉注意力计算，以得到计算结果；

24、将所述计算结果输入前馈神经网络进行处理，以得到输出编码；

25、从所述输出编码中选取与预先确定的cls节点对应的编码，根据相应的选取结果确定目标编码。

26、可选的，所述基于所述目标编码以及预先确定的所述病理学图像和所述多组学数据之间的匹配结果确定交叉熵损失之前，还包括：

27、判断所述病理学图像对应的患者与所述多组学数据对应的患者是否相同；

28、若是，则判定所述病理学图像与所述多组学数据匹配；

29、若否，则判定所述病理学图像与所述多组学数据不匹配。

30、可选的，所述基于所述目标编码以及预先确定的所述病理学图像和所述多组学数据之间的匹配结果确定交叉熵损失，包括：

31、将所述目标编码输入至目标全连接神经网络，以得到目标逻辑算子；

32、基于所述目标逻辑算子以及所述病理学图像和所述多组学数据之间的匹配结果确定交叉熵损失。

33、可选的，所述根据所述对比损失和所述交叉熵损失反向传播以进行模型参数的优化，包括：

34、将所述对比损失和所述交叉熵损失进行相加，以根据相应的相加结果确定总损失；

35、基于所述总损失反向传播以进行模型参数的优化。

36、可选的，所述根据所述对比损失和所述交叉熵损失反向传播以进行模型参数的优化之后，还包括：

37、将所述目标编码输入至目标全连接神经网络，以得到目标生存风险数值；

38、获取所述患者样本的生存时间以及死亡事件；

39、将所述目标生存风险数值、所述生存时间以及所述死亡事件输入预设的平均负对数似然损失函数，获取目标输出；

40、基于所述目标输出反向传播以进行模型参数的优化，基于当前优化后的模型参数完成对模型的调整。

41、第二方面，本申请公开了一种用于癌症生存预测的多模态预训练装置，包括：

42、图像和数据处理模块，用于获取患者样本的病理学图像和多组学数据，对所述病理学图像和所述多组学数据分别进行预处理，以得到处理后病理学图像以及处理后多组学数据；

43、编码模块，用于利用相应的编码器分别对所述处理后病理学图像和所述处理后多组学数据进行编码，得到所述处理后病理学图像对应的第一编码以及所述处理后多组学数据对应的第二编码；

44、自注意力值获取模块，用于基于所述第一编码以及所述第二编码确定对比损失，将所述第二编码输入预设的自注意力模块，以得到自注意力值；

...

【技术保护点】

1.一种用于癌症生存预测的多模态预训练方法，其特征在于，包括：

2.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述对所述病理学图像和所述多组学数据分别进行预处理，以得到处理后病理学图像以及处理后多组学数据，包括：

3.根据权利要求2所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述利用相应的编码器分别对所述处理后病理学图像和所述处理后多组学数据进行编码，得到所述处理后病理学图像对应的第一编码以及所述处理后多组学数据对应的第二编码，包括：

4.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述基于所述第一编码以及所述第二编码确定对比损失，包括：

5.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述基于所述自注意力值与所述第一编码进行交叉注意力计算，根据相应的计算结果确定目标编码，包括：

6.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述基于所述目标编码以及预先确定的所述病理学图像和所述多组学数据之间的匹配结果确定交叉熵损失之前，还包括：

7.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述基于所述目标编码以及预先确定的所述病理学图像和所述多组学数据之间的匹配结果确定交叉熵损失，包括：

8.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述根据所述对比损失和所述交叉熵损失反向传播以进行模型参数的优化，包括：

9.根据权利要求1至8任一项所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述根据所述对比损失和所述交叉熵损失反向传播以进行模型参数的优化之后，还包括：

10.一种用于癌症生存预测的多模态预训练装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种用于癌症生存预测的多模态预训练方法，其特征在于，包括：

4.根据权利要求1所述的用于癌症生存预测的多模态预训练方法，其特征在于，所述基于所述第一编码以及所述第二编码确定对比损失，包括：

<...

【专利技术属性】
技术研发人员：王绥学，黄镇南，王淑玲，张清辰，
申请(专利权)人：海南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人