一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法技术

技术编号:39319942 阅读:10 留言:0更新日期:2023-11-12 16:01
本发明专利技术公开了一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,包括如下步骤:步骤一:根据息肉数据集划分所需的训练集和测试集;步骤二:对数据集进行预处理,统一尺寸和归一化;步骤三:将预处理后的数据输入神经网络中,提取图像特征;步骤四:计算输出的息肉位置预测图和临床医学专家标注的标签之间的损失,训练并优化模型,记录最优参数;步骤五:为模型加载最优保存权重,根据模型第一层和第二层输出的预测图计算最终分割预测。本方法的优势在于捕捉浅层特征中的多尺度信息和细节信息,融合并过滤深层语义特征。编码器端计算全局关系,重新调整特征图权重。模型实现了端到端的自动息肉分割,可准确分割多种息肉。肉。肉。

【技术实现步骤摘要】
一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法


[0001]本专利技术涉及计算机视觉,医学,Transformer及深度学习领域技术,尤其涉及基于深度学习的结肠息肉分割方法。

技术介绍

[0002]随着世界人口老龄化的加剧和风险因素不断增加,全球范围内的结直肠癌患者数量呈上升趋势。结直肠癌多数是由良性腺瘤恶性病变所致。腺瘤的早期形态为结肠息肉,恶化时则会导致癌症。早期息肉筛查可以大大降低结直肠癌的发病率。在各种筛查手段中,结肠镜检查被认为是腺瘤筛查的金标准。
[0003]早期息肉自动分割方法往往采用非线性扩散过率,基于形状先验的边界检测,聚类等。但这些传统息肉分割方法由于准确率较低,数据特异性强,先验知识依赖严重等问题,难以在临床环境中广泛适用。
[0004]深度学习是机器学习的一种,目的在于学习样本数据的内在规律和表示层次,适用于各种下游任务。深度网络往往从网络输入数据中捕捉低层表示,逐渐提取特征,形成更加抽象的高层表示,属性类别等。目前,深度学习已经在推荐搜索,自然语言处理,目标检测,语义分割,图像生成等领域广泛应用。
[0005]目前已经存在一部分基于深度学习的结肠息肉分割方法,它们大多基于编码器

解码器架构,编码器用于训练集的特征提取,解码器输出息肉像素位置的二值图像,实现息肉位置的分割,检测。但现有的方法大多数难以在临床环境中广泛应用,主要涉及以下两个问题:特征利用不充分和各级特征在融合过程中存在的语义冲突和信息冗余。因此,改进的基于特征融合和注意力机制的结肠息肉分割方法可以充分地利用编码器提取的特征,并缓解来自不同层级特征融合带来的冲突冗余问题。

技术实现思路

[0006]本专利技术的目的是深入探索特征融合方案和注意力机制在自动结肠息肉分割领域的作用。
[0007]为了实现上述目的,本专利技术采用的技术方案是:设计一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,包括以下步骤:
[0008]1)、根据五个公开的临床结肠镜息肉分割数据集划分自动息肉分割所需的训练集和测试集;
[0009]2)、对数据集进行预处理,将划分好的数据集统一尺寸,训练集归一化;
[0010]3)、将步骤二经过预处理的数据输入基于Pytorch开源框架实现的神经网络中,提取训练集图像特征;
[0011]4)、计算深度网络模型输出的息肉位置预测图与临床医学专家标注的标签之间的损失,训练并优化自动息肉分割模型,记录模型性能达到最优时模型参数;
[0012]5)、将测试集图像样本调整到统一尺寸,为模型加载训练时性能最优的保存权重,根据模型第一层和第二层输出的预测图计算最终分割预测,获得息肉位置分割图像。
[0013]具体地,步骤1)的数据集使用Kvasir,CVC

ClinicDB,CVC

ColonDB,ETIS,CVC

300。Kvasir包括1000张结肠镜检查图像及其掩码,图像分辨率从332
×
487到1920
×
1072像素不等。CVC

ClinicDB包括612个不同的结肠镜检查序列中提取的29个图像帧及由临床专家标注的分割掩模,图像的分辨率为384
×
288。CVC

ColonDB由380张分辨率为574
×
500的静态图像组成。ETIS包括196张1225
×
966分辨率的息肉图像。CVC

300包括60张分辨率大小为574
×
500的结肠镜检查图像。训练集由612张Kvasir数据集图像和838张CVC

ClinicDB数据集图像组成。测试集由五个数据集其它数据构成。
[0014]步骤2)将划分好的训练集调整尺寸大小为352
×
352,并以[0.485,0.456,0.406],[0.229,0.224,0.225]进行归一化。
[0015]步骤3)网络如图1所示,详细描述如下:
[0016]网络采用编码器

解码器的结构。编码器采用PVTv2网络对输入网络的数据集进行提取,得到4个不同分辨率的特征图,记为x1~x4。其中x1为浅层特征,x2~x4为深层特征。x1通过卷积核大小为1卷积层将通道数降低为32,然后送入多尺度注意力模块。x2~x4同样通过卷积核大小为1的卷积层将通道调整为32,然后输入到深层特征增强模块,进行不同层级特征的融合和冲突冗余缓解。所述解码器接收最深层编码器特征图,其中的全局注意力模块融合解码器特征图和同层级处理后的跳跃连接特征图。解码器对特征图逐层上采样,逐渐恢复与输入图像一致的分辨率。
[0017]多尺度注意力模块:其结构如图2所示:经过卷积核大小为1的卷积层降低通道后的编码器特征x1以残差连接的方式输入到多尺度模块,多尺度模块由卷积核大小递增的卷积层和卷积核大小为3的膨胀卷积构成。经过多尺度模块的特征图进入由全局池化层,最大池化层和Sigmoid组成的通道注意力模块;得到的结果输入由空间像素平均,空间像素最大和Sigmoid组成的空间注意力模块。具体过程公式描述如下:
[0018]T=Attention
s
(Attention
c
(M))
[0019]Attention
c
(x)=x

Sigmoid(MaxPool(x)+AvgPool(x))
[0020]Attention
s
(x)=x

Sigmoid(Concat(MaxSpatial(x),AvgSpatial(x)))
[0021]其中T和M分别代表多尺度注意力模块的输出特征图和经过多尺度模块后的特征图。Attention
c
(x)代表通道注意力机制,Attention
s
(x)代表空间注意力机制。X代表输入到注意力机制中的特征图。MaxPool代表最大池化层,AvgPool代表平均池化层。

代表像素维度的相乘。Concat代表特征图通道维度的拼接。
[0022]深层特征增强模块:其结构如图3所示:x4经过双线性插值扩大分辨率至原尺寸的二倍。经过上采样后的特征图输入到卷积核大小为3的卷积层,批量归一化层和Relu激活层。经过上述计算后的特征图与x3像素维度相乘,然后经过并行的通道注意力机制和空间注意力机制缓解融合过程中的冲突冗余。x4经过双线性插值扩大分辨率至原尺寸的四倍并经过卷积核大小为3的卷积层,批量归一化层和Relu激活层,x3经过双线性插值上采样至原尺寸的二倍并同样经过卷积核大小为3的卷积层,批量归一化层和Relu激活层调整特征图。经过尺寸调整后的x4和x3与x2像素维度相乘。上述编码器第二层和编码器第三层中融合后的特征图分别输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,其特征在于,包括以下步骤:1)、根据五个公开的临床结肠镜息肉分割数据集划分自动息肉分割所需的训练集和测试集;2)、对数据集进行预处理,将划分好的数据集统一尺寸,训练集归一化;3)、将步骤二经过预处理的数据输入基于Pytorch开源框架实现的神经网络中,提取训练集图像特征;4)、计算深度网络模型输出的息肉位置预测图与临床医学专家标注的标签之间的损失,训练并优化自动息肉分割模型,记录模型性能达到最优时模型参数;5)、将测试集图像样本调整到统一尺寸,为模型加载训练时性能最优的保存权重,根据模型第一层和第二层输出的预测图计算最终分割预测,获得息肉位置分割图像。2.根据权利要求1所述的一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,其特征在于,所述步骤1)的数据集使用Kvasir,CVC

ClinicDB,CVC

ColonDB,ETIS,CVC

300。Kvasir包括1000张结肠镜检查图像及其掩码,图像分辨率从332
×
487到1920
×
1072像素不等。CVC

ClinicDB包括612个不同的结肠镜检查序列中提取的29个图像帧及由临床专家标注的分割掩模,图像的分辨率为384
×
288。CVC

ColonDB由380张分辨率为574
×
500的静态图像组成。ETIS包括196张1225
×
966分辨率的息肉图像。CVC

300包括60张分辨率大小为574
×
500的结肠镜检查图像。训练集由612张Kvasir数据集图像和838张CVC

ClinicDB数据集图像组成。测试集由五个数据集其它数据构成。3.根据权利要求1所述的一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,其特征在于,所述步骤2)将划分好的训练集调整尺寸大小为352
×
352,并以[0.485,0.456,0.406],[0.229,0.224,0.225]进行归一化。4.根据权利要求1所述的一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,其特征在于,所述步骤3)网络如图1所示,详细描述如下:网络采用编码器

解码器的结构。编码器采用PVTv2网络对输入网络的数据集进行提取,得到4个不同分辨率的特征图,记为x1~x4。其中x1为浅层特征,x2~x4为深层特征。x1通过卷积核大小为1卷积层将通道数降低为32,然后送入多尺度注意力模块。x2~x4同样通过卷积核大小为1的卷积层将通道调整为32,然后输入到深层特征增强模块,进行不同层级特征的融合和冲突冗余缓解。所述解码器接收最深层编码器特征图,其中的全局注意力模块融合解码器特征图和同层级处理后的跳跃连接特征图。解码器对特征图逐层上采样,逐渐恢复与输入图像一致的分辨率。多尺度注意力模块:其结构如图2所示:经过卷积核大小为1的卷积层降低通道后的编码器特征x1以残差连接的方式输入到多尺度模块,多尺度模块由卷积核大小递增的卷积层和卷积核大小为3的膨胀卷积构成。经过多尺度模块的特征图进入由全局池化层,最大池化层和Sigmoid组成的通道注意力模块;得到的结果输入由空间像素平均,空间像素最大和Sigmoid组成的空间注意力模块。具体过程公式描述如下:T=Attention
s
(Attention
c
(M))Attention
c
(x)=x

Sigmoid(MaxPool(x...

【专利技术属性】
技术研发人员:陈乔松刘峻卓张冶陈浩李远路
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1