基于转换器的肺癌组织病理全切片EGFR状态预测方法技术

技术编号:34375324 阅读:16 留言:0更新日期:2022-07-31 13:11
本发明专利技术公开了一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,步骤包括:1、获取肺癌组织病理全切片数据集并进行预处理;2、第一阶段,建立并训练能够预测图像块阴阳性的视觉转换器网络模型;3、利用训练好的能够预测图像块阴阳性的视觉转换器网络模型预测数据集中图像块阴阳性类别,筛除阴性图像块,利用阳性图像块生成EGFR突变类型数据集;4、第二阶段,建立并利用生成的EGFR突变类型数据集训练能够预测图像块EGFR突变类型的视觉转换器网络模型;5、利用第一、二阶段训练好的模型完成对全切片EGFR状态的预测。本发明专利技术使用两个视觉转换器网络模型构成主干网络,有效降低伪标签的错误率,提高预测的准确度。提高预测的准确度。提高预测的准确度。

A converter based EGFR status prediction method for lung cancer histopathology

【技术实现步骤摘要】
基于转换器的肺癌组织病理全切片EGFR状态预测方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于转换器的肺癌组织病理全切片EGFR状态预测方法。

技术介绍

[0002]EGFR(Epidermal growth factor receptor,表皮生长因子受体)是一种具有细胞质激酶活性的跨膜蛋白,可将重要的生长因子信号从细胞外环境转导至细胞。肺腺癌是一种常见的肺癌组织学类型,表皮生长因子受体(EGFR)突变的发现使其治疗方法发生了革命性变化。阳性肺腺癌EGFR状态大体可分为突变型(mutant)和野生型(wild)两种,为了保证状态分类的准确性,本专利中将除了突变型和野生型以外的阳性EGFR状态分为其他型(other)。在一线治疗中,检测EGFR突变是至关重要的,因为不同类型的EGFR状态会有用药、治疗方面的显著差异。因此,准确无误地判断EGFR状态对于患者治疗、医生用药起到至关重要的作用。
[0003]活检组织的突变测序已成为检测EGFR突变的金标准。在实际诊疗过程中,病理医生需要在显微镜下用肉眼检查数以万计的细胞。而每位病理医生每天需要处理大量病患的标本,常常会产生阅片疲劳,误诊现象时有发生。因此,需要一种高效且定量的肺癌组织病理全切片EGFR状态预测方法,减轻病理医生的阅片负担,同时提高肺癌组织病理全切片EGFR状态预测准确率。目前,针对肺癌组织病理全切片EGFR状态预测的算法主要以基于深度学习的监督学习分类算法为主。
[0004]近年来,深度学习模型在计算机视觉各个领域中取得了显著的效果,一些研究人员已经将卷积神经网络应用于肺癌组织病理全切片EGFR状态预测任务中,如残差网络(ResNet)、密集卷积网络(Densenet),但它们依赖归纳偏置,不能动态自适应建模,并且无法捕捉EGFR受体之间在空间尺度上的特征,难以对肺癌EGFR状态做出准确预测。

技术实现思路

[0005]本专利技术目的就是为了弥补已有技术的缺陷,提供一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,旨在解决由于病理图像结构复杂、类型多变,特征信息丰富,导致肺癌组织病理全切片EGFR状态预测困难的问题,通过构建基于视觉转换器的两阶段网络,获取肺癌组织病理全切片图像内部远距离依赖关系,从而得到不同类别EGFR受体相对应的表征,完成肺癌组织病理全切片EGFR状态的准确高效预测。
[0006]本专利技术是通过以下技术方案实现的:
[0007]一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,具体包括如下步骤:
[0008](1)、根据肺癌组织病理全切片图像获取肺癌组织病理全切片数据集并进行预处理;
[0009](2)、建立并利用步骤(1)中数据集训练能够预测图像块阴阳性的视觉转换器网络模型;
[0010](3)、利用步骤(2)建立的能够预测图像块阴阳性的视觉转换器网络模型预测数据集中图像块阴阳性类别,筛除阴性图像块,利用保留下来的阳性图像块生成EGFR突变类型数据集;
[0011](4)、建立并利用步骤(3)中生成的数据集训练能够预测图像块EGFR突变类型的视觉转换器网络模型;
[0012](5)、利用步骤(2)和步骤(4)建立的能够预测图像块阴阳性的视觉转换器网络模型和能够预测图像块EGFR突变类型的视觉转换器网络模型完成对全切片EGFR状态的预测。
[0013]步骤(1)所述的根据肺癌组织病理全切片图像获取肺癌组织病理全切片数据集并进行预处理,具体如下:
[0014]对肺癌组织病理全切片图像按照阴阳性标签整理,将全切片图像去除空白背景区域并进行分块处理,随机采样得到多个图像块,记为其中,表示第i个图像块,C表示图像块的通道数,P
×
P表示每个图像块的宽度和高度;y
i
表示第i个图像块X
i
对应的类别,将全切片的阴阳性标签赋给图像块作为其伪标签,从而得到每个图像块及其阴阳性分类;i=1,2,

,N;N表示图像块的数量。
[0015]步骤(2)所述的建立并利用步骤(1)中数据集训练能够预测图像块阴阳性的视觉转换器网络模型,具体如下:
[0016]构建由L个编码器构成的视觉转换器ViT作为第一阶段网络,每个编码器包括:两个归一化层、多头注意力机制层以及多层感知器;
[0017]步骤2.1、对图像块X
i
进行分块处理,得到包含m个图像块的序列其中,表示图像块X
i
的第j个图像块;表示图像块X
i
经分块处理后的每个图像块的宽度和高度,且m=P2/p2;
[0018]步骤2.2、设置一个可学习的分类标记x
class
,并利用式(1)得到m个图像块和分类标记x
class
的D维嵌入表示z
l0
,作为第1个编码器的输入;
[0019][0020]式(1)中,E
pos
表示m个图像块和分类标记x
class
在图像块X
i
中的空间位置;E表示所设置的嵌入矩阵;
[0021]步骤2.3、利用式(2)得到m个图像块和分类标记x
class
在第l个编码器的多头注意力机制层的输出z

l

[0022]z'
l
=MSA(LN(z
l
‑1))+z
l
‑1,l=1,

,L
ꢀꢀꢀꢀꢀꢀ
(2)
[0023]式(2)中,MSA(
·
)表示多头自注意力机制层的处理;LN(
·
)表示归一化层的处理;z
l
‑1表示第l

1个编码器的输出;
[0024]步骤2.4、利用式(3)得到第l个编码器的多层感知器的输出z
l

[0025]z
l
=MLP(LN(z

l
))+z

l
,l=1,

,L
ꢀꢀꢀ
(3)
[0026]式(3)中,MLP(
·
)表示多层感知器的处理;LN(
·
)表示归一化层的处理;
[0027]步骤2.5、将第l个编码器的多层感知器的输出z
l
,送入第l+1个编码器的多头注意力机制层得到输出z

l+1
,再将z

l+1
送入第l+1个编码器的多层感知器得到输出z
l+1
,重复步骤2.5多次直至第L个编码器,得到第L个编码器的输出z
L

[0028]步骤2.6、利用式(4)得到经归一化处理后的输出z

L
,并提取出分类标记x
clas本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,其特征在于:具体包括如下步骤:(1)、根据肺癌组织病理全切片图像获取肺癌组织病理全切片数据集并进行预处理;(2)、建立并利用步骤(1)中数据集训练能够预测图像块阴阳性的视觉转换器网络模型;(3)、利用步骤(2)建立的能够预测图像块阴阳性的视觉转换器网络模型预测数据集中图像块阴阳性类别,筛除阴性图像块,利用保留下来的阳性图像块生成EGFR突变类型数据集;(4)、建立并利用步骤(3)中生成的数据集训练能够预测图像块EGFR突变类型的视觉转换器网络模型;(5)、利用步骤(2)和步骤(4)建立的能够预测图像块阴阳性的视觉转换器网络模型和能够预测图像块EGFR突变类型的视觉转换器网络模型完成对全切片EGFR状态的预测。2.根据权利要求1所述的一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,其特征在于:步骤(1)所述的根据肺癌组织病理全切片图像获取肺癌组织病理全切片数据集并进行预处理,具体如下:对肺癌组织病理全切片图像按照阴阳性标签整理,将全切片图像去除空白背景区域并进行分块处理,随机采样得到多个图像块,记为其中,表示第i个图像块,C表示图像块的通道数,P
×
P表示每个图像块的宽度和高度;y
i
表示第i个图像块X
i
对应的类别,将全切片的阴阳性标签赋给图像块作为其伪标签,从而得到每个图像块及其阴阳性分类;i=1,2,

,N;N表示图像块的数量。3.根据权利要求2所述的一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,其特征在于:步骤(2)所述的建立并利用步骤(1)中数据集训练能够预测图像块阴阳性的视觉转换器网络模型,具体如下:构建由L个编码器构成的视觉转换器ViT作为第一阶段网络,每个编码器包括:两个归一化层、多头注意力机制层以及多层感知器;步骤2.1、对图像块X
i
进行分块处理,得到包含m个图像块的序列其中,表示图像块X
i
的第j个图像块;表示图像块X
i
经分块处理后的每个图像块的宽度和高度,且m=P2/p2;步骤2.2、设置一个可学习的分类标记x
class
,并利用式(1)得到m个图像块和分类标记x
class
的D维嵌入表示z
l0
,作为第1个编码器的输入;式(1)中,E
pos
表示m个图像块和分类标记x
class
在图像块X
i
中的空间位置;E表示所设置的嵌入矩阵;步骤2.3、利用式(2)得到m个图像块和分类标记x
class
在第l个编码器的多头注意力机制层的输出z

l
;z'
l
=MSA(LN(z
l
‑1))+z
l
‑1,l=1,

,L
ꢀꢀꢀꢀ
(2)
式(2)中,MSA(
·
)表示多头自注意力机制层的处理;LN(
·
)表示归一化层的处理;z
l
‑1表示第l

1个编码器的输出;步骤2.4、利用式(3)得到第l个编码器的多层感知器的输出z
l
;z
l
=MLP(LN(z

l
))+z

l
,l=1,

,L
ꢀꢀꢀꢀ
(3)式(3)中,MLP(
·
)表示多层感知器的处理;LN(
·
)表示归一化层的处理;步骤2.5、将第l个编码器的多层感知器的输出z
l
,送入第l+1个编码器的多头注意力机制层得到输出z

l+1
,再将z

l+1
送入第l+1个编码器的多层感知器得到输出z
l+1
,重复步骤2.5多次直至第L个编码器,得到第L个编码器的输出z
L
;步骤2.6、利用式(4)得到经归一化处理后的输出z

L
,并提取出分类标记x
class
对应的D维特征z

L
=LN(z
L
)
ꢀꢀꢀꢀ
(4)式(4)中,LN(
·
)表示归一化层的处理;步骤2.7、利用式(5)对特征进行线性变换,得到线性分类器的输出结果pos
pred
;式(5)中,Linear(
·
)代表线性分类函数;c代表阴性/阳性;步骤2.8、利用式(6)构建交叉熵损失函数L,并利用梯度下降算法训练由视觉转换器和线性分类器所构成的第一阶段网络,使得交叉熵损失函数L达到收敛,从而得到训练好的能够预测图像块阴阳性的视觉转换器网络模型;式(6)中,y
label
为图像块对应的阴阳性伪标签,N为图像块总数。4.根据权利要求3所述的一种基于转换器的肺癌组织病理全切片EGFR状态预测方法,其特征在于:步骤(3)所述的利用步骤(2)建立的能够预测图像块阴阳性的视觉转换器网络模型预测数据集中图像块阴阳性类别,筛除阴性图像块,利用保留下来的阳性图像块生成EGFR突变类型数据集,具体如下:对肺癌组织病理全切片图像按照EGFR突变状态类别标签整理,将全切片图像去除空白背景区域并进行分块处理,随机采样得到多个图像块,并送入训练好的能够预测图像块阴阳性的视觉转换器网络模型,预测每个图像块的阴阳性类别,筛除阴性图像块,得到n个阳性图像块,生成EGFR突变类型数据集,记为其中,表示第i个图像块,C表示图像块的通道数,P
×
P表示每个图像块的宽度和高度;y'
i
表示...

【专利技术属性】
技术研发人员:祝新宇史骏束童唐昆铭孙宇杨志鹏张元王垚郑利平
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1