一种基于分层深度多示例学习的基因突变预测方法及系统技术方案

技术编号：38947565 阅读：16 留言：0更新日期：2023-09-25 09:43

本发明专利技术提出一种基于分层深度多示例学习的基因突变预测方法和系统。本发明专利技术首先使用监督学习方法将目标区域缩小到癌症区域，从而减少大量不相关Patch对随后的弱监督学习的噪声影响；然后，基于对比学习得到的Patch特征表示和癌症区域聚类结果，确保Patch选取的全面性。最后，本发明专利技术提出了一种新的分层深度多示例学习(HDMIL)方法，该方法可以确保足够多的Patch被考虑到、错误选取的Patch被忽略掉。且本发明专利技术方法具有可解释性。本发明专利技术提出的HDMIL可以找到与基因突变最相关的Patch。到与基因突变最相关的Patch。到与基因突变最相关的Patch。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分层深度多示例学习的基因突变预测方法及系统

[0001]本专利技术涉及深度学习
和图像视觉处理分类
，特别是涉及一种基于分层深度多示例学习的基因突变检测方法及系统。

技术介绍

[0002]基因突变生物标志物对于癌症的精确诊断和精准治疗非常重要。因此，临床指南建议对大多数肿瘤患者进行基因突变的检测，一般是通过分子生物学方法进行检测。多项研究探索了基因突变生物标志物在癌症诊断和治疗中的作用。例如，在膀胱癌的治疗中，FGFR3突变与靶向治疗药物的适用性相关，基因突变生物标志物ERCC2、ERBB2、ATM、RB1突变与化疗和免疫治疗的适用性相关。然而，由于分子生物学检测方法的周转时间长、组织使用量大且成本高，在临床实践的常规流程中无法进行广泛的基因突变检测。因此，迫切需要研发容易获取且廉价的基因突变预测方法，以对病理图像WSI进行二分类任务，得到其基因突变或不突变。
[0003]苏木精
‑
伊红(hematoxylin
‑
eosin,H&E)染色的病理图像便宜且易于获得。如果仅通过病理图像就可以预测基因突变，将极大促进基因突变检测的临床接受度。一般认为，肿瘤细胞的基因改变引起功能改变，从而影响肿瘤细胞的形态或肿瘤微环境(表型改变)。这种基因型
‑
表型相关性为基于病理图像的基因突变预测提供了理论基础。同时，已有的研究也证实了这种相关性的存在。例如，通过全切片扫描病理图像WSI预测非小细胞肺癌的10个常见基因突变，结果发现其可以有效...

【技术保护点】

【技术特征摘要】
1.一种基于分层深度多示例学习的基因突变预测方法，其特征在于，包括：癌症区域识别步骤，获取已标注癌症和正常区域的WSI，并将癌症和正常区域作为WSI的类别标签，对WSI切分为尺寸均等的Patch，得到WSI所有Patch的类别标签，基于Xception构建分类网络；癌症区域聚类步骤，提取各Patch的特征表示，基于该特征表示进行K
‑
Means聚类，每张WSI被聚类为多个类簇；分层深度多示例学习分类步骤，包括HDMIL
‑
Patch阶段和HDMIL
‑
Group阶段；在该HDMIL
‑
Patch阶段，WSI的癌症区域被聚成K个簇，每次从一个簇中随机选取一张Patch P
k
，从而从K个簇中选出K张Patch；所有来自同一张WSI的K个P
k
组成一个包Patch
‑
bag用于HDMIL
‑
Patch训练，Patch
‑
bag：Patch
‑
bag的标签继承自WSI是否发生基因突变的标签Y；基于所有WSI的Patch
‑
bag之后，使用ADMIL算法来训练HDMIL
‑
Patch模型直至收敛；HDMIL
‑
Patch模型为：Y＝FC(G
n
),其中，G
n
是第n个Patch
‑
bag的包级表示，H
patch
(.)是去除最后一层全连接层的HDMIL
‑
Patch模型，FC(.)表示全连接层；在HDMIL
‑
Group阶段，使用第n个Patch
‑
bag的包级表示作为组Group的表示Group
‑
instance；在WSI上重复随机选取N次，使一张WSI产生N个Group
‑
instances，将N个Group
‑
instances组成一个包Group
‑
bag用于HDMIL
‑
Group训练，Group
‑
bag：Group
‑
bag的标签继承该标签Y，基于所有WSI的Group
‑
bags，使用ADMIL算法来训练HDMIL
‑
Group模型直至收敛，HDMIL
‑
Group模型为：Y＝FC(F
m
),其中，F
m
是第m个Group
‑
bag的包级表示，H
group
(.)是去除最后一层全连接层的HDMIL
‑
Group模型；基因突变预测可解释性步骤，对HDMIL
‑
Group阶段的注意力权重进行排序，找到前t
group
大的注意力权重对应的t
group
个组Group；然后在每组中，分别对HDMIL
‑
Patch阶段的注意力权重进行排序，找到前t
patch
大的注意力权重对应的t
patch
个Patch，最终得到t
patch
×
t
group
个Patch，作为WSI中与基因突变最相关的Patch。2.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法，其特征在于，该HDMIL
‑
Patch模型和该HDMIL
‑
Group模型均为ADMIL模型。3.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法，其特征在于，该癌症区域识别步骤包括：丢弃该WSI中组织含量小于阈值的Patch。4.如权利要求1所述的基于分层深度多示例学习的基因突变预测方法，其特征在于，该WSI为全切片扫描图像。5.一种基于分层深度多示例学习的基因突变预测系统，其特征在于，包括：癌症区域识别模块，获取已标注癌症和正常区域...

【专利技术属性】
技术研发人员：颜锐，张雪媛，谭光明，任菲，刘玉东，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人