预测乳腺癌相对生存风险的方法、系统、设备及存储介质技术方案

技术编号:34434666 阅读:14 留言:0更新日期:2022-08-06 16:16
本发明专利技术属于生物技术领域,公开了结合组织学全切片图像和基因突变标签预测乳腺癌相对生存风险的方法、系统、计算机设备和存储介质。所述方法包括:对于一对患者的每一个,获取肿瘤组织学全切片图像数据,和基因突变数据;根据获取的所述图像数据获取图像特征;从所述基因突变数据中选取对生存有显著性影响的基因以获取基因组特征;通过孪生网络处理所述图像特征和所述基因组特征,包括:使用循环神经网络处理所述图像特征,使用全连接网络处理所述基因组特征;将处理后的图像特征和基因组特征拼接以得到该患者的融合特征;以及对于所述一对患者,基于该对患者的融合特征的差值使用所述输出线性层预测该对患者的相对生存风险。述输出线性层预测该对患者的相对生存风险。述输出线性层预测该对患者的相对生存风险。

【技术实现步骤摘要】
预测乳腺癌相对生存风险的方法、系统、设备及存储介质


[0001]本专利技术涉及生物医学领域,尤其涉及结合组织学全切片图像和基因突变标签预测乳腺癌相对生存风险的方法、系统、计算机设备及非暂时性计算机可读存储介质。

技术介绍

[0002]根据世界卫生组织癌症数据(https://www.who.int/en/news

room/fact

sheets/detail/cancer)[1],乳腺癌是引发女性死亡的主要原因之一。乳腺癌是一种非常复杂的疾病,不同患者的结局往往差别很大。当前,标准的乳腺癌治疗方案包括外科手术(乳房切除术)、化学疗法、放射疗法、以及可能的激素疗法或者靶向疗法。现有的治疗方案致力于切除肿瘤并杀死任何残存的肿瘤细胞,常常需要根据患者的肿瘤分级和整体健康状况进行调整。因此,如果可以较为精确地预测患者的生存风险,就可以帮助医生更好地调整治疗方案。
[0003]现有的乳腺癌生存分析方法,依据其使用的数据可以分为三类:只使用影像数据的方法,例如Barnes等人的“Assessing risk of breast cancer recurrence”(申请号为10489904的美国专利申请)[2]和Seker、Huseyin等人的“Assessment of nodal involvement and survival analysis in breast cancer patients using image cytometric data:statistical,neural network and fuzzy approaches”(Anticancer research 22.1A(2002):433

438页)[3];只使用基因组学数据的方法,例如Huang、Zhi等人的“SALMON:survival analysis learning with multi

omics neural networks on breast cancer”(Frontiers in genetics 10(2019):166)[4],Li等人的“Deep learning based feature

level integration of multi

omics data for breast cancer patients survival analysis”(BMC Medical Informatics and Decision Making,(2020)20:225)[5],Snijders等人的“12

gene prognostic signature for breast cancer survival”(申请号为10876767的美国专利申请)[6],Pendino等人的“Methods for determining a prognosis for survival for a patient with breast cancer”(申请号为9512484的美国专利申请)[7]和王昕等人的“乳腺癌预后评估模型及其建立方法”(公开号为CN110656173A的中国专利申请)[8];以及只使用临床数据的方法,例如Chao、Cheng

Min等人的“Construction the model on the breast cancer survival analysis use support vector machine,logistic regression and decision tree”(Journal of medical systems 38.10(2014):1

7页)[9]和滕婧等人的“一种基于动态Cox模型的乳腺癌预后生存率预测方法”(公开号为CN108922628A的中国专利申请)[10]。
[0004]具体地,文献[2]使用病理学组织学全切片图像预测乳腺癌患者的复发风险(高风险/低风险)。文献[3]使用图像中细胞计数的数据来预测乳腺癌患者的5年生存状态。文献[4]基于多组学数据(mRNA测序数据、miRNA测序数据、拷贝数负担、肿瘤突变负担、雌性激素和孕酮受体状态),利用深度学习的方法来预测乳腺癌患者的生存风险。文献[5]同样使用多组学数据(基因表达、DNA甲基化、miRNA表达、拷贝数变异),利用深度学习的方法来预测
乳腺癌患者的生存风险。文献[6]基于12个基因提出了一个预后指标。文献[7]使用CXXC5 mRNA的表达水平来预测乳腺癌患者的生存风险,并以此监视乳腺癌治疗的有效性。文献[8]基于对RNA序列数据的表达水平分析,提取了190个基因,并使用支持向量机来预测乳腺癌患者是否复发。文献[9]基于临床数据(病理学分级、是否接受化学疗法、是否接受放射疗法、年龄、肿瘤大小、检查的淋巴结个数、被攻击的淋巴结个数),使用支持向量机、逻辑回归或决策树来预测乳腺癌患者是否存活。文献[10]基于临床数据(肿瘤大小和位置、检查的淋巴结个数、被攻击的淋巴结个数),使用动态Cox模型来预测乳腺癌患者的生存风险。
[0005]所有这些技术都仅使用单一数据源,其包含的信息量是有限的。

技术实现思路

[0006]本专利技术提出了一种结合病理学组织学全切片图像和基因突变标签来预测乳腺癌患者相对生存风险的方法。该方法使用孪生网络来预测患者的相对生存风险。首先分别提取图像特征和基因组特征,然后再使用上述孪生网络将其融合起来,最后将融合的特征用于相对风险的预测。
[0007]具体地,根据本专利技术的第一方面,本专利技术提供了一种结合组织学全切片图像和基因突变标签预测乳腺癌相对生存风险的方法,所述方法包括以下步骤:
[0008](a)对于一对患者的每一个,获取肿瘤组织学全切片图像数据,和基因突变数据;
[0009](b)根据获取的所述图像数据获取图像特征,优选包括:将所述组织学全切片图像切分为图像块,筛除非肿瘤图像块并且对剩下的图像块进行聚类,将经过排序的类中心作为所述图像特征;
[0010](c)从所述基因突变数据中选取对生存有显著性影响的基因以获取基因组特征;
[0011](d)通过孪生网络处理所述图像特征和所述基因组特征,所述孪生网络包括用于处理图像特征的循环神经网络(RNN)、用于处理基因组特征的全连接网络(FCN)和用于输出结果的输出线性层,包括:使用循环神经网络(RNN)处理所述图像特征,使用全连接网络(FCN)处理所述基因组特征;
[0012](e)将处理后的图像特征和基因组特征拼接以得到该患者的融合特征;以及
[0013](f)对于所述一对患者,基于该对患者的融合特征的差值(例如对应元素直接相减)使用所述输出线性层预测该对患者的相对生存风险。
[0014]在一个实施方案中,在步骤(b)中,将所述组织学全切片图像切分为所述图像块包括:从放大后的组织学全切片图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合组织学全切片图像和基因突变标签预测乳腺癌相对生存风险的方法,所述方法包括以下步骤:(a)对于一对患者的每一个,获取肿瘤组织学全切片图像数据,和基因突变数据;(b)根据获取的所述图像数据获取图像特征,包括:将所述组织学全切片图像切分为图像块,对所述图像块进行特征提取,筛除非肿瘤图像块并且对剩下的图像块进行聚类,将经过排序的类中心作为所述图像特征;(c)从所述基因突变数据中选取对生存有显著性影响的基因以获取基因组特征;(d)通过孪生网络处理所述图像特征和所述基因组特征,所述孪生网络包括用于处理图像特征的循环神经网络、用于处理基因组特征的全连接网络和用于输出结果的输出线性层,包括:使用循环神经网络处理所述图像特征,使用全连接网络处理所述基因组特征;(e)将处理后的图像特征和基因组特征拼接以得到该患者的融合特征;以及(f)对于所述一对患者,基于该对患者的融合特征的差值使用所述输出线性层预测该对患者的相对生存风险。2.根据权利要求1所述的方法,步骤(b)中的将所述组织学全切片图像切分为所述图像块包括:从放大后的组织学全切片图像上并排地切分以得到所述图像块。3.根据权利要求1所述的方法,步骤(b)还包括:在将所述组织学全切片图像切分为图像块后对所述图像块进行色彩归一化处理。4.根据权利要求1所述的方法,步骤(b)还包括:使用预先训练好的神经网络对所述图像块进行特征提取。5.根据权利要求4所述的方法,还包括:所述预先训练好的神经网络是在图像分类数据库例如ImageNet上预先训练的PNASNet神经网络。6.根据权利要求1所述的方法,步骤(b)中的筛除非肿瘤图像块包括:使用在非肿瘤区域图像块的特征上训练的高斯混合模型对所提取的特征进行过滤以筛除非肿瘤图像块。7.根据权利要求6所述的方法,利用所得的高斯混合模型模型进行步骤(b)中的类中心的排序。8.根据权利要求1所述的方法,步骤(c)中的基因选取是通过在基因的突变集和非突变集上生存信息的对数秩检验实现的,其中p值阈值为0.05。9.根据权利要求1所述的方法,步骤(d)中的循环神经网络是一个独立的...

【专利技术属性】
技术研发人员:余维川刘少军
申请(专利权)人:香港科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1