一种适用于医学影像目标分类的样本选择偏差缓解方法技术

技术编号:38905589 阅读:16 留言:0更新日期:2023-09-22 14:24
本发明专利技术公开了一种适用于医学影像目标分类的样本选择偏差缓解方法,在小样本图像分类基础上,研究通过特征变换解决小样本任务中新类数据偏移问题,构建新集样本特征变换网络模型。新类和基类共享特征提取方式,利用新类样本特征向特定的方向偏斜、接近于特定基类样本特征方向的特点,以特定基类特征的平均作为任务质心,新类移除它们在任务质心方向的投影,从而增加新类样本特征的数据差异,提高新类特征的辨识度。本发明专利技术对小样本学习样本选择偏差问题的理论研究、小样本学习在医学影像目标分类的广泛应用具有重要的意义。同时,对我国突破小样本学习实现跨域理论瓶颈起到重要推动作用。作用。作用。

【技术实现步骤摘要】
一种适用于医学影像目标分类的样本选择偏差缓解方法


[0001]本专利技术涉及计算机图像分类领域,具体为一种适用于医学影像目标分类的样本选择偏差缓解方法。

技术介绍

[0002]医学影像分类是计算机辅助诊断中的一个重要课题,其目的是利用计算机进行计算,以帮助提高诊断的正确性。医学影像的分类因其专业领域的特殊性,面临着如下两大难题。首先,收集真正有价值的医学影像数据集是一项非常昂贵的工作,如何在样本量稀少的情况下能够快速地泛化到没有见过的分类任务当中,这是困扰医学影像目标分类任务的瓶颈问题。其次,医学影像中含有大量的病理信息和模态信息,要了解这些专业的信息必须要有领域知识,单凭视觉的相似度判别无法准确地进行分类,从而产生了类内差异性和类间相似性问题。
[0003]小样本学习是在训练集样本很少的条件下,完成相应的学习任务,期望在学习大量的基类后,只需少量样本就可以迅速学习掌握新类。通常小样本学习可以使用少量样本进行学习。
[0004]在计算机视觉和人工智能领域,小样本图像分类是一个迫切需要解决的问题。目前已有的大量样本数据的分类方法是依靠样本数量,而实际的样本量不够,例如军事、医疗、工业、天文行业,这些数据的收集往往会耗费大量的人力、物力代价,难以进行大量的数据采集。因此,对小样本图像分类进行研究是一项非常有意义的工作。
[0005]在目前的技术中,基于深度度量的分类方法主要是通过对样本和类原型之间的距离进行比较来判别类别。通常将数据增强和迁移学习相结合,以弥补数据量不够和模型过拟合,这些方法对许多小样本分类具有良好的效果,但是与多样本的图像分类方法相比,目前的小样本图像分类效果并不理想。现有的小样本分类方法没有很好地解决样本的选择偏差问题。

技术实现思路

[0006]本专利技术的目的在于提供一种适用于医学影像目标分类的样本选择偏差缓解方法技术,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]一种适用于医学影像目标分类的样本选择偏差缓解方法,包括以下步骤:
[0009]S1,准备数据集,预训练图像得到特征提取器,用于提取图像特征,此处采用ResNet

18作为特征提取器,借助迁移学习的思想,利用基集训练特征提取器,用Baseline++等方法进行分类,再将新集送进特征提取器,得到新集的样本特征;
[0010]S2,对新集样本特征进行变换,构建新集样本特征变换网络模型;
[0011]S3,利用新集样本特征变换网络模型对查询集图像进行分类。
[0012]其中,所述步骤S1包括:
[0013]S11,基集为D
b
,将基集样本分为和这两个数据集类别互斥,将D
train
作为基集的训练模型,D
test
作为新集对模型测试;
[0014]S12,对于N

way K

shot分类任务,分别对特定的医学影像数据集D
train
随机选出N个类别,每个类别中随机挑出A个样本,其中K个样本作为支持样本S
i
,其余A

K个样本用作查询集Q
i
,S
i
和Q
i
组成一个任务T
i
,并且对于D
test
有任务目的是划分出训练和测试所需支持集和查询集;
[0015]S13,利用基集预训练特征提取器f
θ
,f
θ
采用ResNet

18结构,将所有的支持样本输入参数固定的特征提取器f
θ
中,得到对应的支持样本特征f
θ
(S
ck
)。
[0016]其中,所述步骤S2构建新集样本特征变换网络模型,这个网络模型包括,基集样本选择模块,任务质心计算模块,投影特征移除模块;
[0017]其中,所述步骤S3构建的新集样本特征变换网络模型包括:
[0018]S31,取所有支持集样本特征的平均因为基集和新集之间域转移了,导致新集分布向某些特定方向转移,发现新集样本的方向接近一些特定的基类样本倾斜方向,因此找出确定的基集特定样本以近似任务质心,并以所有支持集样本的特征的平均作为参考。计算公式为:
[0019][0020]在n

way K

shot任务,给定新集规范化特征x
n
∈S,||x
n
||=1,i∈[1,2,...,N
×
K],计算S所有样本特征的平均值。
[0021]S32,依据与的余弦相似度在基类样本中寻找k个最合适的样本,D
cosine
是计算余弦相似度,D
topK
即包含基类中余弦相似度最接近的前k个样本,计算公式为:
[0022][0023][0024]其中,符号D
cosine
表示两个向量之间的余弦距离,而D
topK
是选择余弦相似度最接近的前k个样本。
[0025]S33,基于余弦相似度,加权聚合来近似任务质心,计算公式为:
[0026][0027]其中,p是控制基样本相对权值的超参数。方程4中的p被设为0.5。
[0028]S34,近似任务质心c
tas
k,计算公式为:
[0029][0030]其中,符号L2表示L2的归一化。c
task
比更好,因为很容易在支持集数据上过拟合,远不能代表新集的真正质心,新集在一定方向上倾向于相关的有限的基集样本方向,所
以从基集中前k个相似样本外推任务质心更精确。
[0031]S35,为了减少在任务质心附近的新集所造成的抽样偏差,对在支持集和查询集的所有新类样本,经过去除它们的特征在任务质心的投影,缓解样本选择偏差,对此使用一种特征变换以提取到近似任务质心的投影,在去除沿着任务方向的特征分量后,将新类的分布推离近似的质心,计算出差异性更大的新的新类样本,计算公式为:
[0032][0033]其中x
n
∈S∪Q。
[0034]其中,所述步骤S4包括:
[0035]S41,测试过程,每个任务由支持集和查询集组成,测试集的查询集输入到特征提取器f
θ
,得到特征。
[0036]S42,用支持集样本训练一个新的线性分类器f
w
,设ω=[ω1,ω2,...,ω
N
]∈R
d
×
N
为分类器的可学习参数,其中d为所提取特征的维数。我们对每个类c的权值向量进行归一化,其中||ω
n
=1||,n∈[1,2,...,N],以消除特征向量的大小的影响。一个样本x属于c类的概率可以表示为:
[0037][0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于医学影像目标分类的样本选择偏差缓解方法,其特征在于,包括以下步骤:S1,准备数据集,预训练图像得到特征提取器,用于提取图像特征,此处采用ResNet

18作为特征提取器,借助迁移学习的思想,利用基集训练特征提取器,用Baseline++等方法进行分类,再将新集送进特征提取器,得到新集的样本特征;S2,对新集样本特征进行变换,构建新集样本特征变换网络模型;S3,利用新集样本特征变换网络模型对查询集图像进行分类。2.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法,其特征在于,步骤S1包括:S11,基集为D
b
,将基集样本分为和这两个数据集类别互斥,将D
train
作为基集的训练模型,D
test
作为新集对模型测试;S12,对于N

way K

shot分类任务,分别对特定的医学影像数据集D
train
随机选出N个类别,每个类别里随机挑出A个样本,其中K个样本作为支持样本S
i
,其余的A

K个样本用作查询集Q
i
,S
i
和Q
i
组成一个任务T
i
,并且对于D
test
有任务目的是划分出训练和测试所需支持集和查询集;S13,利用基集预训练特征提取器f
θ
,f
θ
采用ResNet

18结构,将所有的支持样本输入参数固定的特征提取器f
θ
中,得到对应的支持样本特征f
θ
(S
ck
)。3.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法,其特征在于,步骤S2构建新集样本特征变换网络模型,这个网络模型包括,基集样本选择模块,任务质心计算模块,投影特征移除模块。4.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法,其特征在于,步骤S3构建的新集样本特征变换网络模型包括:S31,取所有支持集样本特征的平均S32,依据与的余弦相似度在基类样本中寻找k个最合适的样本,D
cosine
即余弦相似度,D
topK
即包含基类中余弦相似度最接近的前k个样本。S33,基于余弦相似度,加权聚合来近似任务质心;...

【专利技术属性】
技术研发人员:张云飞蔡占毅钱靖陆峦华于新桃
申请(专利权)人:江苏济远医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1