基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法技术

技术编号:34800168 阅读:86 留言:0更新日期:2022-09-03 20:06
基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法,该方法内容包括以下步骤:步骤1:获取数据集和标签;步骤2:数据集预处理;步骤3:构建二阶段的全尺寸病理图像(WSI)分类网络;步骤4:保存二阶段网络的最优权重;步骤5:计算该网络在测试集上的准确率。本发明专利技术的SAMIL引入了轻量且高效的SA模块,SA融合空间注意力和通道注意力,它们分别用于捕获像素级成对关系和通道依赖性。SAMIL将MHA与LSTM堆叠,以自适应地突出最独特的实例特征,从而更好地计算所选实例之间的相关性,提高分类精度。度。度。

【技术实现步骤摘要】
基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法


[0001]本专利技术涉及图像分类方法
,具体为基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法。

技术介绍

[0002]根据最近的全球癌症估计,2020年女性乳腺癌新诊断病例为230万例,已超过肺癌成为全球最常见的癌症。同时,全尺寸图像(WSI),即苏木精伊红(H&E)染色的活检组织标本的数字化,为乳腺癌诊断提供了确切的参考。
[0003]近年来,随着深度学习在各种计算机任务中的突破性成功,用于癌症诊断的计算机辅助WSI分类方法也受到了更多的关注。特别地,针对WSI规模庞大和全监督学习中像素级标注困难所带来的问题,一些研究者将WSI分类转化为弱监督任务,并引入多实例学习(MIL)作为解决方案。MIL解决方案主要关注两个关键环节,即构建实例级别选择模块,基于提取到的深度特征计算切片级别图像的正概率,将概率最大的前K个切片作为候选实例;设计聚合算子生成包嵌入,用于计算每一个包的得分。虽然多实例学习在全切片病理图像分类任务已经取得很大进步.
[0004]它的不足之处在于:很少在空间或者通道维度上描述每个子特征的特征相关性,不利于发现微小的乳腺癌淋巴结转移的癌细胞。在捕获有助于对WSI进行分类的不同实例之间的依赖关系方面存在局限性。

技术实现思路

[0005]本专利技术的目的是为了提供一种可获取更具判别性的补丁级别表示,能够提高乳腺癌转移淋巴结病理图像分类的准确率的基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法。
[0006]一种基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法,该方法内容包括以下步骤:
[0007]步骤1:获取数据集和标签:获取乳腺癌组织病理学图像的数据集和标签,将乳腺癌组织病理学图像按照比例随机划分为训练集、验证集和测试集;
[0008]步骤2:数据集预处理:基于反二值化阈值处理操作对划分好的数据集进行预处理,为每一个WSI图片生成背景/组织区域的掩码,将组织区域切分成a
×
a大小的切片,保存切片的坐标组。为进一步减少计算量,增设一个概率p,当切片中组织区域的部分大于概率p时,保存该切片的坐标,处理后的WSI图像X

i
可以表示为X

i
={x
i,1
,x
i,2

,x
i,m
},其中m为每张全尺寸乳腺癌病理图像中切片的个数;
[0009]步骤3:构建二阶段的全尺寸病理图像(WSI)分类网络:第一阶段用于实例的选择,使用SA

ResNet50网络对切片进行特征提取,通过基于多实例学习方法选出每张WSI中概率最大的前K个实例,第二阶段用于全尺寸级别的预测,通过多头注意力(MHA)与长短期记忆(LSTM)网络叠加起来构建的聚合器对整张WSI图像做出可靠的预测;
[0010]步骤31:在一阶段,SA

ResNet50网络对切片进行特征提取:将切片X

∈R
C
×
H
×
W
作为预训练的SA

ResNet50网络的输入,在ResNet50的残差结构之后,得到特征矩阵X∈R
c
×
h
×
w
,置换注意力首先沿着通道维度将X分为G组,即X=[X1,

,X
G
],X
k
∈R
c/G
×
h
×
w
,X
k
被继续分成两个分支,分别为X
k1
,X
k2
∈R
c/2G
×
h
×
w
,一个分支利用通道间的相互关系,输出通道注意力图,另一个分支利用特征间的空间关系,生成空间注意力图,将两个分支的结果进行连接,使得通道个数X

k
与X
k
的通道个数相同,随后,将所有的特征矩阵X

k
进行聚合操作,SA模块的最终输出为X
out
∈R
c
×
h
×
w
。X
out
通过全局平均池化产生切片的特征向量X
gap

[0011]步骤32:获取小块训练SA

ResNet50网络:获得每张切片的特征向量之后,通过Softmax函数得到每张切片的概率,并对每张全尺寸图像中切片的概率从小到大排序,取每张全尺寸图像中概率排名最靠前的T个小块训练SA

ResNet50网络。
[0012]步骤33:获得全尺寸级别预测的输入V:使用一阶段预训练好的最优权重文件对每张WSI中的切片进行预测,并且对预测的概率进行排序,取每张全尺寸图像中概率最高的前K个实例作为全尺寸级别预测的输入V=[v1,

,v
K
]∈R
K
×
C

[0013]步骤34:聚合概率最高的前K个实例:利用MHA和LSTM,对于MHA中的第i个头部注意力单元(H
i
),其计算公式如下:
[0014][0015]其中,V=[v1,

,v
K
]∈R
K
×
C
,V表示所选前K个实例特征,K表示实例的个数,v1,

,v
K
表示单个实例特征,v
j
,v
k
∈V,C为实例特征嵌入维度,卷积核为W∈R
D
×1和Z∈R
D
×
C
,D是特征嵌入维度。双曲正切tanh是激活函数。在元素乘法ο之后,对于MHA,连接头单元的所有输出,执行另一个卷积以投影回原来的维度:
[0016][0017]其中,表示特征增强之后的前K个实例,V=[v1,

,v
K
]∈R
K
×
C
,V表示所选前K个实例特征,K表示实例的个数,v1,

,v
K
表示单个实例特征,W
pro
∈R
(H
×
D)
×
C
表示卷积核,T表示矩阵的转置,H1,

,H
h
表示头部注意力单元,h表示头数,C和D特征嵌入维度。
[0018]步骤35:进一步建模所选Top

K个实例之间的依赖关系:LSTM被进一步用于构建交互并融合交互实例,以获得有区别的图像级别表示。LSTM可以捕获短期和长期依赖关系,给定输入特征序列(v1,

,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法,其特征在于:该方法内容包括以下步骤:步骤1:获取数据集和标签:获取乳腺癌组织病理学图像的数据集和标签,将乳腺癌组织病理学图像按照比例随机划分为训练集、验证集和测试集;步骤2:数据集预处理:基于反二值化阈值处理操作对划分好的数据集进行预处理,为每一个WSI图片生成背景/组织区域的掩码,将组织区域切分成a
×
a大小的切片,保存切片的坐标组,为进一步减少计算量,增设一个概率p,当切片中组织区域的部分大于概率p时,保存该切片的坐标,处理后的WSI图像X

i
可以表示为X

i
={x
i,1
,x
i,2

,x
i,m
},其中m为每张全尺寸乳腺癌病理图像中切片的个数;步骤3:构建二阶段的全尺寸病理图像(WSI)分类网络:第一阶段用于实例的选择,使用SA

ResNet50网络对切片进行特征提取,通过基于多实例学习方法选出每张WSI中概率最大的前K个实例,第二阶段用于全尺寸级别的预测,通过多头注意力(MHA)与长短期记忆(LSTM)网络叠加起来构建的聚合器对整张WSI图像做出可靠的预测;步骤4:保存二阶段网络的最优权重:将数据集输入至二阶段的分类网络中,采用训练集训练一阶段网络,在每次迭代中更新网络参数,每三次迭代对验证集进行一次验证,根据最优验证集精度保存一阶段网络的最优权重,使用一阶段的最优权重对数据集进行处理,选择每张WSI中概率排名最靠前的K个实例作为二阶段的输入,利用一阶段最优权重初始化二阶段网络,每次训练完成一个迭代之后进行一次验证,根据最优验证集精度保存二阶段网络的最优权重;步骤5:计算该网络在测试集上的准确率:使用二阶段最优权重初始化网络,将测试集输入该网络中获得每张WSI的预测结果,将预测结果与真实标签数据进行对比,统计正确预测和错误预测的WSI个数,计算该网络在测试集上的准确率。2.根据权利要求1所述的基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法,其特征在于:在步骤3中,步骤31:在一阶段,SA

ResNet50网络对切片进行特征提取:将切片X

∈R
C
×
H
×
W
作为预训练的SA

ResNet50网络的输入,在ResNet50的残差结构之后,得到特征矩阵X∈R
c
×
h
×
w
,置换注意力首先沿着通道维度将X分为G组,即X=[X1,

,X
G
],X
k
∈R
c/G
×
h
×
w
,X
k
被继续分成两个分支,分别为X
k1
,X
k2
∈R
c/2G
×
h
×
w
,一个分支利用通道间的相互关系,输出通道注意力图,另一个分支利用特征间的空间关系,生成空间注意力图,将两个分支的结果进行连接,使得通道个数X

k
与X
k
的通道个数相同,随后,将所有的特征矩阵X

k
进行聚合操作,SA模块的最终输出为X
out
∈R
c
×
h

【专利技术属性】
技术研发人员:张建新侯存巧张冰冰韩雨童
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1