一种基于分层深度多示例学习的基因突变预测方法及系统技术方案

技术编号:38947565 阅读:16 留言:0更新日期:2023-09-25 09:43
本发明专利技术提出一种基于分层深度多示例学习的基因突变预测方法和系统。本发明专利技术首先使用监督学习方法将目标区域缩小到癌症区域,从而减少大量不相关Patch对随后的弱监督学习的噪声影响;然后,基于对比学习得到的Patch特征表示和癌症区域聚类结果,确保Patch选取的全面性。最后,本发明专利技术提出了一种新的分层深度多示例学习(HDMIL)方法,该方法可以确保足够多的Patch被考虑到、错误选取的Patch被忽略掉。且本发明专利技术方法具有可解释性。本发明专利技术提出的HDMIL可以找到与基因突变最相关的Patch。到与基因突变最相关的Patch。到与基因突变最相关的Patch。

【技术实现步骤摘要】
一种基于分层深度多示例学习的基因突变预测方法及系统


[0001]本专利技术涉及深度学习
和图像视觉处理分类
,特别是涉及一种基于分层深度多示例学习的基因突变检测方法及系统。

技术介绍

[0002]基因突变生物标志物对于癌症的精确诊断和精准治疗非常重要。因此,临床指南建议对大多数肿瘤患者进行基因突变的检测,一般是通过分子生物学方法进行检测。多项研究探索了基因突变生物标志物在癌症诊断和治疗中的作用。例如,在膀胱癌的治疗中,FGFR3突变与靶向治疗药物的适用性相关,基因突变生物标志物ERCC2、ERBB2、ATM、RB1突变与化疗和免疫治疗的适用性相关。然而,由于分子生物学检测方法的周转时间长、组织使用量大且成本高,在临床实践的常规流程中无法进行广泛的基因突变检测。因此,迫切需要研发容易获取且廉价的基因突变预测方法,以对病理图像WSI进行二分类任务,得到其基因突变或不突变。
[0003]苏木精

伊红(hematoxylin

eosin,H&E)染色的病理图像便宜且易于获得。如果仅通过病理图像就可以预测基因突变,将极大促进基因突变检测的临床接受度。一般认为,肿瘤细胞的基因改变引起功能改变,从而影响肿瘤细胞的形态或肿瘤微环境(表型改变)。这种基因型

表型相关性为基于病理图像的基因突变预测提供了理论基础。同时,已有的研究也证实了这种相关性的存在。例如,通过全切片扫描病理图像WSI预测非小细胞肺癌的10个常见基因突变,结果发现其可以有效预测六种基因突变:STK11、EGFR、FAT1、SETBP1、KRAS和TP53,在癌症基因组图谱(TCGA)测试集上预测的AUC(受试者工作特征曲线ROC下的面积)范围在0.733和0.856之间。深度学习可以直接从膀胱癌病理图像中预测患者的FGFR3突变状态。在TCGA队列中,预测FGFR3突变的AUC为0.701。但是,目前基于病理图像的基因突变预测方法的预测效果较低,无法满足临床实际应用的需求。另外,可解释性在病理图像分析领域很重要,但目前大多数深度学习方法都缺乏可解释性。目前,病理医生无法通过人眼观察确定染色病理图像的哪些区域受到基因突变的影响,从而无法研究组织病理学形态变化与基因突变之间的相关性。
[0004]伴随着深度学习技术的突破性进展,基于全切片扫描图像WSI的癌症分类方法取得了很好的效果,但是基于WSI的基因突变预测方法并没有达到类似的分类效果。这主要是因为癌变区域具有明显的图像特征,而突变区域则没有,即仅从从病理图像无法区分出哪些区域发生了基因突变。由于“基因型决定表型”,所以,一个区域发生了癌症,肯定是某种突变导致的。但是人类有几万种基因,具体是哪种基因导致的是不知道。所以,WSI中哪里是突变区域,病理医生无法识别。基于WSI的癌症分类是病理学家可以用肉眼识别的任务,而基于WSI的基因突变预测是病理学家无法用肉眼识别的任务。这使得处理这两个任务的方法有本质的不同:癌症区域可以被标注,但突变区域无法被标注。以往的研究方法无法处理这个难题或者直接忽略了这种本质差异,导致预测性能不尽如人意。
[0005]多示例学习是一种弱监督的机器学习方法,适用于无法识别和标注突变区域的
WSI基因突变预测应用场景。尽管深度多示例学习(DMIL)在许多领域取得了不错的效果,但直接在WSI上使用DMIL并没有取得很好的效果。这是因为WSI的分辨率非常高(可以高达150,000
×
150,000像素),只能从WSI中选取少量的Patch(约512
×
512像素)用于DMIL。显然,随机选取的少量Patch的代表性是无法保证的。最近,基于聚类的Patch选取方法可以部分缓解Patch代表性不够的问题。然而,基于聚类的DMIL方法仍然存在两个问题。(1)选取Patch数量不够。受限于GPU显存大小,DMIL方法只能输入少量的Patch(约128张Patch)。这相对于从一张WSI中可以切分出的数万张Patch,其代表性是不够的。(2)选取Patch准确性不够。无监督聚类结果是不完全可靠的,错误选取的Patch会引入噪声影响DMIL的学习。如何从WSI中选取具有代表性的Patch来提高DMIL的分类效果是一个巨大的挑战。

技术实现思路

[0006]本专利技术通过分层深度多示例学习方法来解决上述现有技术存在的问题。具体来说,目前基于病理图像的基因突变预测方法效果不佳而且可解释性差,因为无法识别全切片扫描图像(WSI)中的突变区域。本专利技术的目的是为了应对这一挑战,提出了一个基于分层深度多示例学习的基因突变预测方法及系统。
[0007]针对现有技术的不足,本专利技术提出一种基于分层深度多示例学习的基因突变预测方法,其中包括:
[0008]癌症区域识别步骤,获取已标注癌症和正常区域的WSI,并将癌症和正常区域作为WSI的类别标签,对WSI切分为尺寸均等的Patch,得到WSI所有Patch的类别标签,基于Xception构建分类网络;
[0009]癌症区域聚类步骤,提取各Patch的特征表示,基于该特征表示进行K

Means聚类,每张WSI被聚类为多个类簇;
[0010]分层深度多示例学习分类步骤,包括HDMIL

Patch阶段和HDMIL

Group阶段;在该HDMIL

Patch阶段,WSI的癌症区域被聚成K个簇,每次从一个簇中随机选取一张Patch P
k
,从而从K个簇中选出K张Patch;所有来自同一张WSI的K个P
k
组成一个包Patch

bag用于HDMIL

Patch训练,Patch

bag:Patch

bag的标签继承自WSI是否发生基因突变的标签Y;基于所有WSI的Patch

bag之后,使用ADMIL算法来训练HDMIL

Patch模型直至收敛;HDMIL

Patch模型为:
[0011][0012]Y=FC(G
n
),
[0013]其中,G
n
是第n个Patch

bag的包级表示,H
patch
(.)是去除最后一层全连接层的HDMIL

Patch模型,FC(.)表示全连接层;
[0014]在HDMIL

Group阶段,使用第n个Patch

bag的包级表示作为组Group的表示Group

instance;在WSI上重复随机选取N次,使一张WSI产生N个Group

instances,将N个Group

instances组成一个包Group

bag用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层深度多示例学习的基因突变预测方法,其特征在于,包括:癌症区域识别步骤,获取已标注癌症和正常区域的WSI,并将癌症和正常区域作为WSI的类别标签,对WSI切分为尺寸均等的Patch,得到WSI所有Patch的类别标签,基于Xception构建分类网络;癌症区域聚类步骤,提取各Patch的特征表示,基于该特征表示进行K

Means聚类,每张WSI被聚类为多个类簇;分层深度多示例学习分类步骤,包括HDMIL

Patch阶段和HDMIL

Group阶段;在该HDMIL

Patch阶段,WSI的癌症区域被聚成K个簇,每次从一个簇中随机选取一张Patch P
k
,从而从K个簇中选出K张Patch;所有来自同一张WSI的K个P
k
组成一个包Patch

bag用于HDMIL

Patch训练,Patch

bag:Patch

bag的标签继承自WSI是否发生基因突变的标签Y;基于所有WSI的Patch

bag之后,使用ADMIL算法来训练HDMIL

Patch模型直至收敛;HDMIL

Patch模型为:Y=FC(G
n
),其中,G
n
是第n个Patch

bag的包级表示,H
patch
(.)是去除最后一层全连接层的HDMIL

Patch模型,FC(.)表示全连接层;在HDMIL

Group阶段,使用第n个Patch

bag的包级表示作为组Group的表示Group

instance;在WSI上重复随机选取N次,使一张WSI产生N个Group

instances,将N个Group

instances组成一个包Group

bag用于HDMIL

Group训练,Group

bag:Group

bag的标签继承该标签Y,基于所有WSI的Group

bags,使用ADMIL算法来训练HDMIL

Group模型直至收敛,HDMIL

Group模型为:Y=FC(F
m
),其中,F
m
是第m个Group

bag的包级表示,H
group
(.)是去除最后一层全连接层的HDMIL

Group模型;基因突变预测可解释性步骤,对HDMIL

Group阶段的注意力权重进行排序,找到前t
group
大的注意力权重对应的t
group
个组Group;然后在每组中,分别对HDMIL

Patch阶段的注意力权重进行排序,找到前t
patch
大的注意力权重对应的t
patch
个Patch,最终得到t
patch
×
t
group
个Patch,作为WSI中与基因突变最相关的Patch。2.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法,其特征在于,该HDMIL

Patch模型和该HDMIL

Group模型均为ADMIL模型。3.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法,其特征在于,该癌症区域识别步骤包括:丢弃该WSI中组织含量小于阈值的Patch。4.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法,其特征在于,该WSI为全切片扫描图像。5.一种基于分层深度多示例学习的基因突变预测系统,其特征在于,包括:癌症区域识别模块,获取已标注癌症和正常区域...

【专利技术属性】
技术研发人员:颜锐张雪媛谭光明任菲刘玉东
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1