当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型制造技术

技术编号:32630545 阅读:23 留言:0更新日期:2022-03-12 18:04
本发明专利技术公开了一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型。现有的小样本学习方法大都忽略了特征空间的特殊性与迁移性,本发明专利技术则重点关注于此,构建的特征存储与筛选模块让前一阶段预训练中的特征能被后一阶段的元学习充分利用。首先,构建一个传统的深度学习神经网络进行预训练,对类似任务的非稀有类别数据集进行学习,冻结预训练模型的参数并存储预训练样本中每个类别的特征原型以及特征方差。接下来,通过Transformer编码当前特征与上一阶段选择出来的类别原型之间的关系,进而生成基于当前特征的新特征用于小样本分类器的分类。并在元学习过程中引入了可学习的代价敏感函数,从而使网络对稀有类别的样本更加具有敏感性。具有敏感性。具有敏感性。

【技术实现步骤摘要】
一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型


[0001]本专利技术属于深度学习图像处理领域,尤其涉及融合了注意力方法的小样本医学图像分类算法。

技术介绍

[0002]深度学习是属于机器学习领域中的一个研究方向,来源于对人工神经网络的研究,通过模拟人脑的结构构建多隐层,在经过大量的数据集训练之后,可以学习到丰富的特征。深度学习近年来不断取得重大进展,在诸多领域得到了应用,在计算机视觉领域的图像分类、目标识别、图像分割、图像融合等任务中,深度学习都发挥着重要的作用。
[0003]小样本学习即利用过去的知识,在只有少量标注的训练样本的情况下,能够正确地区分测试样本。而解决小样本问题的一种核心思路称之为元学习,元学习的关键概念是learning

to

learn,即从过去学习的知识中进行总结,而后在面对新的未知的样本时,表现出来较强的辨别能力,这一特性与人类的学习方式十分接近。
[0004]Transformer于2017年被提出,它抛弃了传统的CNN和RNN,整个网络结构完全由自注意力机制(Self

Attention)和前馈神经网络(FFN)组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建。Transformer最早应用于自然语言处理与,近年来在计算机视觉领域也得到了大量的应用。

技术实现思路

[0005]本专利技术通过预训练和元学习两个阶段的训练过程。其中,重点关注了医学图像的特征,提出了基于高斯分布假设的特征选择方法以解决特征的特殊性与迁移性问题,预训练网络学习到的特征分布映射为类高斯分布,并被存储在特征库(feature bank)中;在分类器学习方面,提出了基于注意力机制的分类器元学习方法以解决第一阶段获取到的特征在第二阶段的利用问题。其中,在元学习过程中引入了可学习的代价敏感函数,帮助网络更有效地解决稀有肿瘤类别小样本的分类问题。
[0006]技术方案
[0007]本专利技术公开了一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型。现有的小样本学习方法大都忽略了特征空间的特殊性与迁移性,本专利技术则重点关注于此,构建的特征存储与筛选模块让前一阶段预训练中的特征能被后一阶段的元学习充分利用。首先,构建一个传统的深度学习神经网络进行预训练,对类似任务的数据集进行学习,冻结预训练模型的参数并存储预训练样本中每个类别的特征原型以及特征方差。接下来,通过Transformer编码当前特征与上一阶段选择出来的类别原型之间的关系,进而生成基于当前特征的新特征用于小样本分类器的分类。并在元学习过程中引入了代价敏感函数,从而使网络对稀有类别的样本更加具有敏感性。
[0008]具体包括以下步骤:
[0009]S1,构建获取稀有肿瘤类别小样本数据集并进行预处理,该数据集根据实际问题
进行收集;
[0010]S2,构建特征学习预训练网络对非稀有类别的数据集进行学习,训练出一个强大的预训练模型,并进行参数冻结和特征存储用于后续任务的利用,使用应用较为广泛、性能较强的Resnet50作为训练网络,使用交叉熵结合softmax分类器进行训练。
[0011]S3,提取特征并存储,在预训练阶段提取特征并存储在特征库中,之前学习到的特征将被分布映射为类高斯分布,每个类别的特征原型和方差存储在特征库中。
[0012]S4,构造特征筛选模块,通过计算当前特征与预训练特征空间内类别的特征原型的相似性,可以选择出与当前样本最为相近的k个预训练类别作为候选类别,实现后续特征的迁移与过渡。
[0013]S5,构造基于注意力机制的分类器元学习方法,Transformer通过上一步的特征集来编码当前样本特征与筛选出的类别原型的关系,完成特征迁移。
[0014]S6,在元学习的分类过程中引入代价敏感函数,从而使网络对稀有类别的样本更具有敏感性,通过设置范围让权重在区间内自己进行学习取得合适的值,以实现对不同样本的不同敏感程度
[0015]其中,上述数据集图像预处理过程S1中,具体包括以下步骤:
[0016]S11,读取数据集中的图片;
[0017]S12,将原始图随机长宽比裁剪,并resize到224*224大小
[0018]S13,按照概率p=0.5进行随机水平翻转
[0019]S14,修改亮度、对比度和饱和度,进行随机色彩波动
[0020]S15,进行正则化处理
[0021]步骤(2)中构建特征学习预训练网络对非稀有类别的数据集进行学习,训练出一个强大的预训练模型,并进行参数冻结和特征存储,用于后续任务的利用;该预训练模型使用应用较为广泛、性能较强的Resnet50作为训练网络,使用交叉熵结合softmax分类器进行训练。
[0022]上述步骤S3中,在预训练阶段结束后引入额外的特征存储模块:特征库(feature bank),预训练网络学习到的特征将被分布映射为类高斯分布,并存储在特征库中。具体包括以下步骤:
[0023]S31,每个类别的特征通过power transform进行分布映射为类高斯分布:
[0024][0025]S32,为对应类别计算特征均值和特征方差,计算公式如下:
[0026][0027]S33,假设预训练过程中有n个类别,那么将n个对应类别的特征均值和特征方差存储到特征库中,每个类别占据特征库的一栏。
[0028]上述步骤S4中,通过计算当前特征与预训练特征空间内类别的特征原型的相似性,可以选择出与当前样本最为相近的k个预训练类别作为候选类别,实现后续特征的迁移
与过渡。具体包括以下步骤:
[0029]S41,计算当前特征与预训练特征空间内类别的特征原型的相似性,相似度计算公式表示为:
[0030][0031]S42,为了减少网络的开销,选择与当前样本特征q最相似的特征库中前k个特征原型及对应的特征方差(μ
i
,δ
i
),将这些特征组成新的特征集,用于下一阶段transformer的输入。
[0032]上述步骤S5中,构造基于注意力机制的分类器元学习方法,预训练过程中网络学习到的backbone将被固定,本步骤只对Transformer和分类器的参数进行更新。具体包括以下步骤:
[0033]S51,选取实际需要分类的任务,构建support set和query set。
[0034]S52,通过之前预训练阶段训练好的网络,固定BackBone,提取出当前输入的特征。
[0035]S53,通过步骤S4的特征筛选,将当前输入特征与k个最相似的特征一起输入到transformer中。
[0036]S54,训练transformer的过程中,通过高斯采样的方式模拟每个被选择类别在特征空间内的表达形式,新生成的特征可以表示为q
i
~N(μ
i...

【技术保护点】

【技术特征摘要】
1.一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型,其特征在于,关注特征空间的特殊性与迁移性,构建的特征存储模块与筛选模块让前一阶段预训练中的特征能被后一阶段的元学习充分利用;构建一个传统的深度学习神经网络进行预训练,对类似任务的非稀有类别数据集进行学习,冻结预训练模型的参数并存储预训练样本中每个类别的特征原型以及特征方差;进而通过Transformer编码当前特征与上一阶段选择出来的类别原型之间的关系,进而生成基于当前特征的新特征用于小样本分类器的分类;同时在元学习过程中引入了代价敏感函数,从而使网络对稀有类别的样本更加具有敏感性。2.根据权利要求1所述的一种基于代价敏感的稀有肿瘤类别小样本分类的算法模型,其特征在于,具体包括以下步骤:(1)构建获取稀有肿瘤类别小样本数据集并进行预处理,数据集根据实际问题进行收集;(2)构建特征学习预训练网络学习非稀有类别的数据集并进行参数冻结和特征存储,用于后续任务的利用;(3)提取特征并存储,在预训练阶段提取特征并存储在特征库中,之前学习到的特征将被分布映射为类高斯分布,每个类别的特征原型和方差存储在特征库中;(4)构造特征筛选模块,通过计算当前特征与预训练特征空间内类别的特征原型的相似性,选择出与当前样本特征最为相近的k个预训练类别作为候选类别,实现后续特征的迁移与过渡;(5)构造基于注意力机制的分类器元学习方法,Transformer通过上一步的特征集来编码当前样本特征与筛选出的类别原型的关系,完成特征迁移;(6)在元学习的分类过程中引入可学习的代价敏感函数,从而使网络对稀有类别的样本更具有敏感性,通过设定最大和最小值,让权重在区间内进行学习取得合适的值,以实现对不同样本的不同敏感程度。3.根据权利要求1所述的基于代价敏感的稀有肿瘤类别小样本分类的算法模型,其特征在于:步骤(1)中,图像的预处理包括以下步骤:(1.1)读取数据集中的图片;(1.2)将原始图随机长宽比裁剪,并进行resize;(1.3)进行随机水平翻转;(1.4)修改亮度、对比度和饱和度,进行随机色彩波动;(1.5)进行正则化处理。4.根据权利要求1所述的基于代价敏感的稀有肿瘤类别小样本分类的算法模型,其特征在于:步骤(3)中,预训练阶段得到的特征将被映射为类高斯分布并存储到特征库中,包括以下步骤:(3.1)每个类别的特征通过power transform进行分布映射为类高斯分布:其中v表示每个类别的样本特征,∈和β为超参数,通过f(v)将v的分布映射为类高斯分
布;(3.2)为对应类别计算特征均值和特征方差,计算公式如下:其中μ
i
是第i类的特征均值,δ
i
是第i类的特征方差;x
j
表示第j个样本的特征,f(x
j
)表示Power Transform后类高斯分布下该样本的特征,n
i
表示属于类别i的样本数量;(...

【专利技术属性】
技术研发人员:路建伟李波王培军王毅诚罗烨许晓雯
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1