基于自步学习和对抗生成网络的眼底图像分类系统技术方案

技术编号:38618803 阅读:10 留言:0更新日期:2023-08-31 18:24
本发明专利技术公开了一种基于自步学习和对抗生成网络的眼底图像分类系统,该分类系统包括下采样层和全连接层,所述分类系统的输入为眼底图像,输出为输入图像的类别预测概率;所述分类系统的训练步骤包括:S1、构建训练集;S2、构建预训练子系统;S3、对预训练子系统进行训练;S4、构建联合训练子系统;S5、利用联合训练子系统对生成器、判别器和分类系统进行联合训练。该分类系统能够在小样本数据上训练得到较为准确的眼底图像分类系统。准确的眼底图像分类系统。准确的眼底图像分类系统。

【技术实现步骤摘要】
基于自步学习和对抗生成网络的眼底图像分类系统


[0001]本专利技术属于图像分类
,具体涉及一种基于自步学习和对抗生成网络的眼底图像分类系统。

技术介绍

[0002]眼底图像广泛应用于糖尿病性视网膜病变(DR)等眼部疾病的计算机辅助诊断和筛查。在DR诊断中,病变的主要表现为动脉瘤、出血斑点、硬性渗出、棉绒斑以及黄斑水肿等,通过判断DR眼底图像是否包含微动脉瘤、出血点、渗出液等DR早期病理特征来对患者进行相应的诊断。利用机器学习或深度学习进行图像的分类目前已能够取得较为准确的效果,然而机器学习和深度学习均需要大量训练数据,在小样本数据中表现不够好;对于医学图像而言,尚未有足够的样本能够对机器学习和深度学习方法进行有效训练,从而限制了计算机辅助诊断的应用。
[0003]此外,在眼底图像分析中,病灶点、纹理等特征对DR诊断极为重要,而这些特征在图像中往往是小面积区域,隐藏在阴影、黄斑、背景等大面积区域中。因此,如何从高可信度数据集中学习,从而避免由大量模糊数据在病灶点表现力弱的视觉环境下产生对模型学习的误导的鲁棒性学习策略,对分类的准确性是至关重要的。

技术实现思路

[0004]专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于自步学习和对抗生成网络的眼底图像分类系统,该分类系统能够在小样本数据上训练得到较为准确的眼底图像分类系统。
[0005]技术方案:本专利技术公开了一种基于自步学习和对抗生成网络的眼底图像分类系统,所述分类系统包括下采样层和全连接层,所述分类系统的输入为眼底图像,输出为输入图像的类别预测概率;
[0006]所述分类系统的训练步骤包括:
[0007]S1、构建训练集,所述训练集中的一个样本由样本眼底图像、病变类型标签、文本描述组成;训练集中所有样本眼底图像的分辨率统一至相同维度,并将像素值归一化到[

1,1]范围;所述文本描述由多个表达同一含义的句子组成;
[0008]S2、构建预训练子系统,所述预训练子系统包括:图像编码器、图像解码器、文本编码器和血管分割网络;
[0009]所述图像编码器用于提取输入图像的图像特征,包括级联两个2D卷积单元,每个2D卷积单元由级联的Conv2d层和池化层组成;
[0010]所述图像解码器用于根据图像特征重建图像,包括级联的两个ConvTranspose2d层;
[0011]所述文本编码器用于提取图像文本描述的文本特征,包括one

hot编码层、三个级联的1D卷积单元和一个全连接层;其中每个1D卷积单元由级联的Conv1d层和池化层组成;
全连接层将卷积单元的输出转化为长度是1024的一维向量;
[0012]所述血管分割网络用于获取眼底图像的血管分割图;
[0013]S3、对预训练子系统进行训练;
[0014]S4、构建联合训练子系统,所述联合训练子系统包括:生成器、判别器、采样器;
[0015]所述生成器用于根据血管分割图和图像文本描述的文本特征生成虚拟眼底图像;所述生成器包括级联的8组下采样单元和级联的8组上采样单元,每一组下采样单元包括一层下采样层、正则化层和激活函数;每一组上采样单元包括一层上采样层、正则化层和激活函数;第一组下采样单元的输入为血管分割图;第8组下采样单元的输入为第7组下采样单元的输出与噪声文本的拼接向量,所述噪声文本为文本特征与随机采样的高斯噪声的拼接向量;
[0016]第一组上采样单元的输入为第8组下采样单元的输出,第2组到第8组上采样单元的输入为:
[0017]其中Upin
l
为第l组上采样单元的输入,Upout
l
‑1为第l

1组上采样单元的输出,Downout8‑
l+1
为第8

l+1组下采样单元的输出;l=2,3,

,8;
[0018]下采样单元中的下采样层、上采样单元中的上采样层均为卷积核大小为3*3、步长为1的卷积层,其中第一组到第6组下采样单元中卷积层的通道数为2
n+1
;第7组和第8组下采样单元中卷积层的通道数分别为27和28;第一组到第6组上采样单元中卷积层的通道数为29‑
n
,n=1,2,

,6;第7组和第8组下采样单元中卷积层的通道数分别为23和22;8组下采样单元中的激活函数和第1组到第7组上采样单元中的激活函数均为负斜率L的ReLU激活函数,第8组上采样单元中的激活函数为Tanh函数;
[0019]所述判别器的输入为眼底图像和文本描述的文本特征,用于判别输入的眼底图像与文本描述的文本特征是否相符,如相符输出真,否则输出假;所述判别器包括下采样层和全连接层,输入的眼底图像经过下采样层得到特征向量,所述特征向量与输入的文本描述的文本特征拼接后输入全连接层,输出为标识真假的二进制数;其中下采样层包括6个级联的谱归一化单元,每个谱归一化单元由级联的谱归一化卷积层和激活函数构成;谱归一化卷积层的卷积核大小为4,步长为2;第一至第五各谱归一化单元中的激活函数为负斜率为0.2的LeakyReLU,第六个谱归一化单元中的激活函数为sigmoid;
[0020]所述采样器用于在训练时构建用于分类的支持集和查询集,具体为从c类样本中每类各抽取m个样本,共计c*m个样本,将其中c*k个样本归为支持集,剩余c*(m

k)个样本归为查询集;
[0021]S5、利用联合训练子系统对生成器、判别器和分类系统进行联合训练。
[0022]进一步地,所述文本描述由5个表达同一含义的句子组成。
[0023]进一步地,所述步骤S5中的联合训练包括多轮,一轮联合训练的具体步骤包括:
[0024]S5.1、采样器从训练集中的c类样本中每类各抽取m个样本,共计c*m个样本,将其中c*k个样本归为支持集,剩余c*(m

k)个样本归为查询集;
[0025]S5.2、生成器生成虚拟样本:查询集中的样本眼底图像由血管分割网络得到血管分割图,将该血管分割图和对应的文本描述输入生成器,前向传播生成虚拟眼底图像样本,并将生成的虚拟眼底图像样本并入查询集;
[0026]计算生成器的损失函数值:
[0027]式中,D表示判别器,表示生成的图像,表示相应的文字描述,为文本编码器编码后的文本向量,表示权重参数,是生成图像和真实图像的二范数;模型参数的更新目标是最小化损失函数;
[0028]S5.3、将查询集中的样本眼底图像和文本描述的文本特征输入判别器,前向传播获得真实真假概率;
[0029]将查询集中样本眼底图像对应的虚拟眼底图像样本和文本描述的文本特征输入判别器,前向传播获得虚拟真假概率;
[0030]计算判别器的损失函数值:
[0031][0032]式中,x表示真实图像,t表示与之相匹配的文字描述,ψ(t
w<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自步学习和对抗生成网络的眼底图像分类系统,其特征在于,所述分类系统包括下采样层和全连接层,所述分类系统的输入为眼底图像,输出为输入图像的类别预测概率;所述分类系统的训练步骤包括:S1、构建训练集,所述训练集中的一个样本由样本眼底图像、病变类型标签、文本描述组成;训练集中所有样本眼底图像的分辨率统一至相同维度,并将像素值归一化到[

1,1]范围;所述文本描述由多个表达同一含义的句子组成;S2、构建预训练子系统,所述预训练子系统包括:图像编码器、图像解码器、文本编码器和血管分割网络;所述图像编码器用于提取输入图像的图像特征,包括级联两个2D卷积单元,每个2D卷积单元由级联的Conv2d层和池化层组成;所述图像解码器用于根据图像特征重建图像,包括级联的两个ConvTranspose2d层;所述文本编码器用于提取图像文本描述的文本特征,包括one

hot编码层、三个级联的1D卷积单元和一个全连接层;其中每个1D卷积单元由级联的Conv1d层和池化层组成;全连接层将卷积单元的输出转化为长度是1024的一维向量;所述血管分割网络用于获取眼底图像的血管分割图;S3、对预训练子系统进行训练;S4、构建联合训练子系统,所述联合训练子系统包括:生成器、判别器、采样器;所述生成器用于根据血管分割图和图像文本描述的文本特征生成虚拟眼底图像;所述生成器包括级联的8组下采样单元和级联的8组上采样单元,每一组下采样单元包括一层下采样层、正则化层和激活函数;每一组上采样单元包括一层上采样层、正则化层和激活函数;第一组下采样单元的输入为血管分割图;第8组下采样单元的输入为第7组下采样单元的输出与噪声文本的拼接向量,所述噪声文本为文本特征与随机采样的高斯噪声的拼接向量;第一组上采样单元的输入为第8组下采样单元的输出,第2组到第8组上采样单元的输入为:其中Upin
l
为第l组上采样单元的输入,Upout
l
‑1为第l

1组上采样单元的输出,Downout8‑
l+1
为第8

l+1组下采样单元的输出;l=2,3,

,8;下采样单元中的下采样层、上采样单元中的上采样层均为卷积核大小为3*3、步长为1的卷积层,其中第一组到第6组下采样单元中卷积层的通道数为2
n+1
;第7组和第8组下采样单元中卷积层的通道数分别为27和28;第一组到第6组上采样单元中卷积层的通道数为29‑
n
,n=1,2,

,6;第7组和第8组下采样单元中卷积层的通道数分别为23和22;8组下采样单元中的激活函数和第1组到第7组上采样单元中的激活函数均为负斜率L的ReLU激活函数,第8组上采样单元中的激活函数为Tanh函数;所述判别器的输入为眼底图像和文本描述的文本特征,用于判别输入的眼底图像与文本描述的文本特征是否相符,如相符输出真,否则输出假;所述判别器包括下采样层和全连接层,输入的眼底图像经过下采样层得到特征向量,所述特征向量与输入的文本描述的文本特征拼接后输入全连接层,输出为标识真假的二进制数;其中下采样层包括6个级联的谱归一化单元,每个谱归一化单元由级联的谱归一化卷积层和激活函数构成;谱归一化卷积
层的卷积核大小为4,步长为2;第一至第五各谱归一化单元中的激活函数为负斜率为0.2的LeakyReLU,第六个谱归一化单元中的激活函数为sigmoid;所述采样器用于在训练时构建用于分类的支持集和查询集,具体为从c类样本中每类各抽取m个样本,共计c*m个样本,将其中c*k个样本归为支持集,剩余c*(m

k)个样本归为查询集;S5、利用联合训练子系统对生成器、判别器和分类系统进行联合训练。2.根据权利要求1所述的眼底图像分类系统,其特征在于,所述文本描述由5个...

【专利技术属性】
技术研发人员:邵伟林熙翔朱旗张道强
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1