【技术实现步骤摘要】
基于局部特征和全局特征融合的膀胱镜图像分类方法
[0001]本专利技术涉及计算机视觉领域,特别涉及图像分类技术,具体涉及一种基于局部特征和全局特征融合的膀胱镜图像分类方法。
技术介绍
[0002]用于膀胱疾病诊断的传统临床方法是活检。医学专家使用显微镜分析这些活检样本,以检查任何癌细胞或异常细胞存在的可能性。这种方法的缺点是侵入性的,并且需要高度熟练的医生。相比之下,内窥镜成像是一种用于可视化膀胱的低侵入性技术。内窥镜成像技术帮助医生在初始阶段识别和诊断膀胱异常。因此,内窥镜检查对于显着降低医疗并发症,治疗成本和死亡率非常有益。
[0003]尽管内窥镜检查有许多优点,但它带来了特定的权衡取舍。例如,在膀胱筛选过程中产生的大量视频帧。这些帧中的大多数都是多余的,没有价值,只有少数图像可能有一些异常病变。此外,有时泌尿外科专家可能会根本没有注意到异常病变区域,这可能导致误诊。因此,这些医学专家要求自动化方案,可以通过分析整个内窥镜图像自动确定可能存在的恶性肿瘤,提高医生诊断的工作效率,避免出现误诊漏诊。
[0004]近年来,深度学习模型在计算机视觉各个领域中取得了显著的效果,一些研究人员已经将卷积神经网络应用于膀胱镜图像分类任务中,如残差网络(ResNet)、密集卷积网络(DenseNet),但它们仅仅利用神经网络提取单张图像的局部特征,忽略了膀胱镜图像的全局特征,从而难以较好地解决膀胱病变类内差异大和类间相似性高的问题。
技术实现思路
[0005]本专利技术为克服现有技术的不足之处,提出
【技术保护点】
【技术特征摘要】
1.一种基于局部特征和全局特征融合的膀胱镜图像分类方法,其特征在于,包括以下步骤:步骤1、获取带有图像标签的膀胱镜图像获得样本数据集,每张图像及其相应类别记为其中,X
i
∈R
C
×
H
×
W
表示第i个膀胱镜图像,C表示图像通道数,H表示图像高度,W表示图像宽度,Y
i
表示第i个膀胱镜图像X
i
对应的类别;i=1,2,...,N;N表示膀胱镜图像的数量;步骤2、建立融合局部和全局特征的三分支网络,利用残差神经网络对所述膀胱镜图像的样本数据集进行处理后输出利用多尺度特征嵌入和Transformer网络对所述膀胱镜图像的样本数据集进行处理后输出步骤3、将所述和输入至预先构建的局部全局特征融合模块中,进行维度转换处理后输出交叉升维特征和交叉特征步骤4、基于所述和所述交叉升维特征获得局部特征提取模块输出的最终表征基于所述和所述交叉特征获得全局特征提取模块输出的最终表征通过对所述和所述进行线性变换后,获得所述局部特征提取模块和全局特征提取模块的分类结果;步骤5、建立交叉熵损失函数,并将训练样本集输入所述三分支网络进行训练后,对总损失函数进行优化求解,以调整所述三分支网络模型的参数,并获得最优网络模型,将待分析膀胱镜图像输入到最优网络模型中以输出分类结果。2.根据权利要求1所述的膀胱镜图像分类方法,其特征在于,所述步骤2具体包括:步骤2.1、建立三分支网络,所述三分支网络包括:局部特征提取模块、全局特征提取模块、局部全局特征融合模块;步骤2.2、构建局部特征提取模块:步骤2.2.1、所述局部特征提取模块包含1个预处理模块和4个卷积块;预处理模块包含1个卷积层1个最大池化层,第一卷积块包含2个残差块,第二卷积块包含2个残差块,第三卷积块包含6个残差块,第四卷积块包含2个残差块,每个残差块包含2个1
×
1的卷积核和1个3
×
3的卷积核;步骤2.2.2、将第i个图像X
i
输入所述局部特征提取模块中,首先利用式(1)得出预处理模块的输出,然后利用式(2)得出第k个残差块的输出模块的输出,然后利用式(2)得出第k个残差块的输出模块的输出,然后利用式(2)得出第k个残差块的输出式(1),(2)中conv()代表卷积操作;maxpooling()代表最大池化操作;代表预处理模块的输出;
代表第k
‑
1个残差块的输出;步骤2.3、构建全局特征提取模块:步骤2.3.1、所述全局特征提取模块包含图像块嵌入模块、4个编码器模块:第一编码器模块包含2个Transformer模块,第二编码器模块包含2个Transformer模块,第三编码器模块包含6个Transformer模块,第四编码器模块包含2个Transformer模块,图像块嵌入模块将图像分为一个个图像块,每个Transformer模块包括:2个归一化层、1个多头注意力机制层以及1个多层感知层;步骤2.3.2、图像块嵌入模块对第i个图像X
i
进行分块处理,得到包含m个图像块的序列其中表示第i个图像X
i
的第j个图像块;p
×
p表示每个图像块的维度,图像块的长为p个像素,宽为p个像素,且m=(H
×
W)/p2;步骤2.3.3、设置两个可学习的分类标记x
cls
和蒸馏标记x
dis
,并利用式(3)得到m个图像块和分类标记x
cls
和蒸馏标记x
dis
的D维嵌入表示并作为第一个Transforme模块的输入;式(3)中步骤2.3.4、利用式(4)得到m个图像块以及分类标记x
cls
和蒸馏标记x
dis
在第k个Transformer模块的多头注意力机制层的输出Transformer模块的多头注意力机制层的输出式(4)中,LN()表示归一化层的处理,MHSA表示多头注意力机制层的处理,表示第k
‑
1个Transformer模块的输出。3.根据权利要求2所述的膀胱镜图像分...
【专利技术属性】
技术研发人员:史骏,董钲琦,孙建林,李想,汪逸飞,杨皓程,周泰然,郑利平,徐本柱,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。