一种视网膜OCT图像分类装置制造方法及图纸

技术编号:37817937 阅读:8 留言:0更新日期:2023-06-09 09:49
本发明专利技术公开了一种视网膜OCT图像分类装置,包括数据增强模块、图像分类模块,其中:数据增强模块用于调整输入的原始图像大小,扩充图像数据,得到数据增强的图像数据集,并将图像数据集输入图像分类模块;图像分类模块能根据所述图像数据集构建基于自注意力机制的分类模型,对视网膜OCT图像进行分类并输出图像分类结果;本发明专利技术能够实现获得更广泛的感受野,且分类模型不存在下采样操作,能够完整地聚焦于核心分类信息;能够适应各种数据增强方式,伴随更灵活的数据增强方式能够使得本发明专利技术的泛化性能更为突出,从而提高本发明专利技术识别视网膜OCT图像的整体准确率。膜OCT图像的整体准确率。膜OCT图像的整体准确率。

【技术实现步骤摘要】
一种视网膜OCT图像分类装置


[0001]本专利技术涉及视网膜OCT图像识别的
,特别是涉及一种视网膜OCT图像分类装置。

技术介绍

[0002]随着社会、经济不断地进步与发展,人们用眼时压力剧增,视网膜病变患者数量不断增加。临床眼科医生面临较大的诊断压力,视网膜光学相干断层扫描(Optical Coherence Tomography,OCT)图像智能识别技术可以有效提高诊断效率、缓解医生诊断压力。
[0003]目前视网膜病变眼底图像一般是通过OCT技术
[1]获取。该技术具有无创、高分辨率等特点,是目前眼科最为先进的成像技术。
[0004]视网膜OCT图像识别技术面临的挑战主要集中在如下几个方面:
[0005]一、数据资源小而分散。
[0006]二、模型在小型数据上很难取得优秀的表现,而大型数据集训练的模型迁移至小型数据集时容易出现不收敛的问题。
[0007]三、数据格式不统一。
[0008]有关深度学习对OCT图像进行智能的识别研究中,基于卷积神经网络的深度学习模型取得了不错的效果,但由于其需要较大的数据集进行模型训练,在中小型数据集上直接训练的结果往往不佳,虽然通过保留在大型数据集的预训练参数可以在一定程度上改善模型在小型数据集上的性能表现,但其性能表现仍然存在一定的提升空间。在对视网膜OCT图像进行分类时,由牛津大学视觉几何组(Visual GeometryGroup,VGG)提出的VGG16
[2]卷积神经网络得到了广泛的应用,也取得了较好的实验效果。
[0009]VGG16模型主要思想有:通过3
×
3的小卷积核进行多次卷积操作以获得更大的感受野,然后在每次使用2
×
2最大池化核进行池化后,就会通过将卷积核数量翻倍使得以获得双倍的通道数,从而获取更多的信息。VGG16网络模型的输入是224
×
224三通道RGB图像,可以被池化层分为六个模块,前五个模块均为卷积模块,经过最大池化层隔开,前两个卷积模块均有两个卷积层组成,通过两个连续的卷积层可以将感受野大小从3
×
3提升到5
×
5,而后面三个卷积模块分别通过三个卷积层连续进行三次卷积,使得感受野大小从7
×
7。前面五个卷积模块包括最大池化层主要用于特征提取,最后面的全连接模块包含三个全连接层以及最后的softmax(一种激活函数)层,完成最终的分类任务。
[0010]VGG16的局限性:一是对于输入图像增强方法比较敏感。二是VGG16小型数据集表现不佳,通过保留在大型数据集的预训练参数虽然可以在一定程度上改善模型效果,但仍然存在一定的提升空间。
[0011]参考文献:
[0012][1]舒会叶,王怡欣,邵毅.超高分辨率OCT在眼科临床诊疗和基础研究中的应用[J].眼科新进展,2022,42(09):743

748.DOI:10.13389/j.cnki.rao.2022.0153.
[0013][2]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large

Scale Image Recognition[J].Computer Science,2014.
[0014][3]Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You Need[J].arXiv,2017.
[0015][4]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An Image is Worth16x16Words:Transformers for Image Recognition at Scale[J].2020.

技术实现思路

[0016]本专利技术的目的在于解决现有技术识别视网膜OCT图像准确率差的技术问题,提供一种视网膜OCT图像分类装置。
[0017]为实现上述目的,本专利技术采用以下技术方案:
[0018]一种视网膜OCT图像分类装置,包括数据增强模块、图像分类模块,其中:所述数据增强模块用于调整输入的原始图像大小,扩充图像数据,得到数据增强的图像数据集,并将图像数据集输入图像分类模块;所述图像分类模块能根据所述图像数据集构建基于自注意力机制的分类模型,对视网膜OCT图像进行分类并输出图像分类结果。
[0019]在本专利技术的一些实施例中,所述数据增强模块将原始图像随机裁剪得到不同的大小和宽高比的图像,再将得到的图像缩放裁剪至固定大小,然后以概率p=0.3~0.5进行水平翻转,最后将图像转化为RGB格式的图像数据集。
[0020]在本专利技术的一些实施例中,所述图像分类模块构建的分类模型为基于自注意力机制的Vision Transformer模型,所述Vision Transformer模型包括嵌入层、Transformer编码器、全连接层。
[0021]在本专利技术的一些实施例中,所述嵌入层将输入的图像数据集切分成小图像块,使用卷积核对每个小图像块进行卷积运算得到特征层,再将每个通道的特征展平为一维向量,得到第一向量组。
[0022]在本专利技术的一些实施例中,在第一向量组顶部嵌入分类特征向量得到第二向量组,所述第二向量组与位置嵌入向量在对应位置相加得到第三向量组,所述分类特征向量用于提取特征进行分类,所述位置嵌入向量用于标志不同切片的位置信息,所述位置嵌入向量的维度与第一向量组的维度相同。
[0023]在本专利技术的一些实施例中,Transformer编码器中具有随机灭活层,所述随机灭活层以概率p丢弃Transformer网络中的神经元,能够防止Transformer编码器过拟合;其中,0<p<1。
[0024]在本专利技术的一些实施例中,Transformer编码器中还包括层归一化结构,用于输入的归一化,所述层归一化结构将所述第三向量组中的每一个向量分别进行归一化。
[0025]在本专利技术的一些实施例中,全连接层中还包括提取分类特征向量结构,用于提取第三向量组中的分类特征。
[0026]在本专利技术的一些实施例中,全连接层还包括激活层,全连接层将提取的分类特征进行特征映射,经过激活层完成图像分类。
[0027]本专利技术具有如下有益效果:
[0028]本专利技术提出的视网膜OCT图像分类装置,通过数据增强模块调整原始图像大小,扩
充训练的图像数据,得到数据增强的图像数据集,并将图像数据集输入图像分类模块,图像分类模块根据所述图像数据集构建基于自注意力机制的分类模型,对视网膜OCT图像进行分类并输出图像分类结果等技术特征的设置,能够实现获得更广泛的感受野,且分类模型不存在下采样操作,能够完整地聚焦于核心分类信息;能够适应各种数据增强方式,伴随更灵活的数据增强方式能够使得本专利技术的泛化性能更为突出,从而提高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视网膜OCT图像分类装置,其特征在于,包括数据增强模块、图像分类模块,其中:所述数据增强模块用于调整输入的原始图像大小,扩充图像数据,得到数据增强的图像数据集,并将图像数据集输入图像分类模块;所述图像分类模块能根据所述图像数据集构建基于自注意力机制的分类模型,对视网膜OCT图像进行分类并输出图像分类结果。2.根据权利要求1所述的视网膜OCT图像分类装置,其特征在于,所述数据增强模块将原始图像随机裁剪得到不同的大小和宽高比的图像,再将得到的图像缩放裁剪至固定大小,然后以概率p=0.3~0.5进行水平翻转,最后将图像转化为RGB格式的图像数据集。3.根据权利要求1所述的视网膜OCT图像分类装置,其特征在于,所述图像分类模块构建的分类模型为基于自注意力机制的Vision Transformer模型,所述VisionTransformer模型包括嵌入层、Transformer编码器、全连接层。4.根据权利要求3所述的视网膜OCT图像分类装置,其特征在于,所述嵌入层将输入的图像数据集切分成小图像块,使用卷积核对每个小图像块进行卷积运算得到特征层,再将每个通道的特征展平为一维向量,得到第一向量组。5...

【专利技术属性】
技术研发人员:董宇涵李树祥江学锋李志德张凯
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1