一种基于多尺度显著特征融合的弱监督图像目标定位方法技术

技术编号:36189121 阅读:11 留言:0更新日期:2022-12-31 21:00
一种基于多尺度显著特征融合的弱监督图像目标定位方法,属于计算机视觉领域。为了解决小目标图像ROI标注工作繁杂、CAM激活不足两个问题,本发明专利技术重点关注优化弱监督下分类网络输出类激活图的研究。本发明专利技术涉及两个层面的信息融合:

【技术实现步骤摘要】
一种基于多尺度显著特征融合的弱监督图像目标定位方法


[0001]本专利技术涉及一种基于多尺度显著特征融合的弱监督图像目标定位方法,属于计算机视觉领域。

技术介绍

[0002]图像感兴趣区域(RegionOfInterest,ROI)的定位分割是计算机视觉研究中的一个经典难题,目前基于自然图像的ROI定位分割研究已经取得了巨大的进展。然而对于一些特定领域中的非自然图像(例如医疗图像、花粉颗粒图像),它们的ROI较于自然图像更小,所以基于自然图像的ROI定位分割方法并不完全适用于这类图像。因此,基于特定领域的图像小目标定位分割研究具有十分重要的意义。
[0003]目前主流的基于深度学习的小目标定位分割方法有全监督学习和弱监督学习两类。Z.Ning等人
[1]提出分别利用乳腺超声图像前景和背景的显著性图来引导主网络和辅助网络分别学习前景显著表示和背景显著表示,最终融合两者特征增强分割网络的形态学习能力。但该类全监督型深度学习方法一般都需要大量的已标注数据集,而获取图像的像素级标签是一项繁杂且费时的工作,相对而言,获取只带有类别信息的数据集更容易,故不少工作只使用图像级标签这类弱监督方法来实现目标定位分割。但弱监督学习中由分类网络得到的类激活图(ClassActivationMap,CAM)只能覆盖图像中最为显著的部分,并不能指示完整的目标区域,即CAM的定位精度较低(激活不足),为此,LiY等人
[2]首先利用乳腺解剖学先验知识来约束分类网络对乳腺病变组织的搜索空间,再使用水平集算法对CAM进行修正。但其忽略了一个重要信息:对于不同尺度的目标,分类网络捕获的判别性区域并不一致。
[0004]为了解决小目标图像ROI标注工作繁杂、CAM激活不足两个问题,本专利技术重点关注优化弱监督下分类网络输出类激活图的研究。本专利技术涉及两个层面的信息融合:

由于卷积神经网络中最底层的特征图语义信息弱但位置信息强,故可与最高层特征图进行融合得到分类网络最终的特征图;

由于分类网络对不同尺度ROI的敏感度不同,其得到的类激活图也有所不同,所以融合不同激活图中互补的对象信息能够完善图像中目标区域的定位,进而产生更准确的伪标签用于分割任务。
[0005]参考文献:
[0006][1]Z.Ning,S.Zhong,Q.Feng,W.ChenandY.Zhang,"SMU

Net:Saliency

GuidedMorphology

AwareU

NetforBreastLesionSegmentationinUltrasoundImage,"inIEEETransactionsonMedicalImaging,vol.41,no.2,pp.476

490,Feb.2022,doi:10.1109/TMI.2021.3116087.
[0007][2]LiY,LiuY,HuangL,WangZ,LuoJ.Deepweakly

supervisedbreasttumorsegmentationinultrasoundimageswithexplicitanatomicalconstraints.MedImageAnal.2022Feb;76:102315.doi:10.1016/j.media.2021.102315.Epub2021Nov28.PMID:34902792.

技术实现思路

[0008]针对现有基于全监督学习的图像小目标定位分割研究存在标注工作繁杂、而基于弱监督学习的单尺度图像小目标定位分割研究存在CAM激活不足的问题,本专利技术设计了一种基于多尺度显著特征融合的弱监督图像目标定位方法。具体而言,我们通过构建图像金字塔获取三种不同尺度的图像,并由此得到同一张图像的多尺度CAM,然后将其进行融合,最后将融合后的CAM作为弱监督信息训练分割网络。
[0009]本专利技术所述的基于多尺度显著特征融合的弱监督图像目标定位方法由五个阶段组成:第一阶段为图像的预处理,主要对数据集中图像的分辨率进行统一。第二阶段为图像金字塔的构建。该阶段主要包括以输入图像为源图像向下采样构建图像金字塔顶层、向上采样构建图像金字塔底层、最终图像金字塔层数确定三个部分。第三阶段为分类器特征图的获取。该阶段首先为图像金字塔每层的图像训练一个分类器,然后对于任一层的分类器,将最高层的特征图与最低层的特征图进行拼接以获得融合后的特征图。第四阶段为多尺度 CAM的融合。该阶段首先通过每层特征图的加权和获得同一图像的多尺度CAM,然后将所有CAM进行对齐,最后将其融合,获得源图像最终的CAM。第五阶段为目标区域的预测。该阶段首先将融合后的CAM转换为伪二值标签,然后利用该伪标签来训练分割网络,最后通过分割网络预测目标区域。
[0010]本专利技术的具体方案如附图2所示。
[0011]步骤1:图像预处理
[0012]图像预处理的目的是统一数据集内所有图像的尺寸。本专利技术所参考的数据主要为小目标型图像数据,例如公开的乳腺图像数据集和花粉图像数据集。若数据集内图像分辨率不统一,将导致后续分类网络得到的特征图大小也不一致,而分类网络中全连接层的参数无法适应不同大小的特征图,所以必须将所有输入图像的大小固定为统一的尺寸。
[0013]步骤2:图像金字塔构建
[0014]该步骤以数据集内图像为源图像,通过构建高斯金字塔来获取输入图像的三种尺度变换。为同时获取较于原图更全局和更细粒度的信息,本专利技术构建的高斯金字塔采用向下采样和向上采样混合的金字塔结构。
[0015]步骤2.1图像金字塔顶层构建:以输入图像为源图像,首先利用5*5大小的模板高斯核对其进行高斯平滑处理,然后通过去除图像矩阵中的偶数行和列来对处理后的图像进行下采样,最后得到输入图像1/4大小的图像,并以此作为图像金字塔顶层。
[0016]步骤2.2图像金字塔底层构建:以输入图像为源图像,首先将图像在每个方向上都扩大为原来的2倍,其中新增的行和列用数值0来填充;然后将5*5大小的模板高斯核乘4 后再与放大后的图像进行卷积运算,以获得新增像素的近似值。最后得到输入图像4倍大小的图像,并以此作为图像金字塔底层。
[0017]步骤2.3图像金字塔层数确定:为图像金字塔中不同层上的图像确定编号,其中图像金字塔层数编号从0开始,随着金字塔层数的增加,图像分辨率相应减小。本专利技术构建的图像金字塔为3层,其中原图处于第2层,相应的金字塔层数编号为1。
[0018]步骤3:分类器特征图获取
[0019]该步骤针对图像金字塔中三种不同尺度的图像,分别训练一个分类器,以得到同一图像三种不同尺度的类激活图。
[0020]步骤3.1分类网络训练:本专利技术选用经典的ResNet50作为分类网络,用于判断输入图像所属的类别。由于图像金字塔中存在三种不同尺度的图像,所以最终需要为三个不同尺度的图像数据集分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度显著特征融合的弱监督图像目标定位方法,其特征在于:步骤1:图像预处理图像预处理的目的是统一数据集内所有图像的尺寸;步骤2:图像金字塔构建该步骤以数据集内图像为源图像,通过构建高斯金字塔来获取输入图像的三种尺度变换;为同时获取较于原图更全局和更细粒度的信息,构建的高斯金字塔采用向下采样和向上采样混合的金字塔结构;步骤2.1图像金字塔顶层构建:以输入图像为源图像,首先利用5*5大小的模板高斯核对其进行高斯平滑处理,然后通过去除图像矩阵中的偶数行和列来对处理后的图像进行下采样,最后得到输入图像1/4大小的图像,并以此作为图像金字塔顶层;步骤2.2图像金字塔底层构建:以输入图像为源图像,首先将图像在每个方向上都扩大为原来的2倍,其中新增的行和列用数值0来填充;然后将5*5大小的模板高斯核乘4后再与放大后的图像进行卷积运算,以获得新增像素的近似值;最后得到输入图像4倍大小的图像,并以此作为图像金字塔底层;步骤2.3图像金字塔层数确定:为图像金字塔中不同层上的图像确定编号,其中图像金字塔层数编号从0开始,随着金字塔层数的增加,图像分辨率相应减小;构建的图像金字塔为3层,其中原图处于第2层,相应的金字塔层数编号为1;步骤3:分类器特征图获取该步骤针对图像金字塔中三种不同尺度的图像,分别训练一个分类器,以得到同一图像三种不同尺度的类激活图;步骤3.1分类网络训练:选用经典的ResNet50作为分类网络,用于判断输入图像所属的类别;由于图像金字塔中存在三种不同尺度的图像,所以最终需要为三个不同尺度的图像数据集分别训练一个分类器;步骤3.2高低层特征图融合:将每一个分类网络中最高层特征与最低层特征进行对齐拼接,促使网络增强小目标对象低层次的特征,以获得网络最后的融合特征图;步骤4:多尺度CAM融合该步骤获取三个分类网络的CAM,将其对齐后再进行融合,最终得到图像对应的融合CAM图;步骤4.1分类网络CAM获取:针对步骤3.2中得到的最终融合特征图,通过将其与分类网络中全连接层的权重矩阵相乘以获得CAM;由于使用了三个分类网络,所以对于每一张源图像,最终将得到三张不同尺度的CAM,构成CAM金字塔;步骤4.2多个CAM对齐:将不同尺度的CAM基于源图像的尺寸进行对齐,以方便后续的融合操作;步骤4.3多个CAM融合:对于融合CAM中的任一像素,采用以下判断机制:若至少存在两个独立CAM在该点关于某类别的激活值大于等于阈值,则认为该像素点属于该类别;若经过判断机制后该像素点未分配给任何类别,则忽略该像素点;若该像素点被分配给了多个类别,则将该像素点分配给三个独立CAM在该点的最大平均激活值对应的类别;步骤5:ROI预测
该步骤首先将步骤4.3中得到的融合CAM转换为伪标签,再基于伪标签训练图像ROI的定位分割网络,最后利用网络进行ROI的预测;步骤5.1融合CAM伪标签转换:将融合后的CAM转换为用于分割网络训练的伪二值掩膜;采用以下判断机制:若融合CAM中的任意像素点属于非目标类,则将该点像素值赋为0,否则赋为1;步骤5.2分割网络训练预测:基于步骤5.1中获得的伪二值标签训练图像分割网络,选用的分割网络架构为U

Net,最后利用训练好的网络对测试集进行ROI的分割预测。2.根据权利要求1所述的一种基于多尺度显著特征融合的弱监督图像目标定位方法,其特征在于:步骤1:图像预处理图像预处理的目的是统一数据集内所有图像的尺寸;将所有图像的尺寸都设定为512*512;步骤2:图像金字塔构建构建过程包括两个部分:其一,通过高斯金字塔将输入原图的宽和高分别下采样为原始图像的50%,由此得到256*256分辨率的图像作为金字塔的顶层;其二,通过高斯金字塔将输入原图的宽和高分别上采样为原始图像的200%,由此得到1024*1024分辨率的图像作为金字塔的底层;具体如下:步骤2.1图像金字塔顶层构建:对于给定的512*512大小的原图,向下采样以原图1/4大小的图像构建高斯金字塔的顶层,图像对应分辨率为256*256;具体过程如公式(1)所示:首先对512*512的原始图像做一次高斯平滑处理,其与简单平滑不同,高斯平滑在计算周围像素加权平均值时,对中心点临近的像素赋予了更高的权重值;然后通过去除图像矩阵中的偶数行和列来对处理后的图像进行下采样,以得到256*256分辨率的图像;1≤l≤L,0≤x≤R
l
,0≤y≤C
l
其中G
l
为高斯金字塔的第l层图像,高斯金字塔层数从0开始,L为高斯金字塔顶层的层号,R
l
和C
l
分别为第l层图像的行数和列数,W(m,n)为高斯滤波模板的第m行第n列数值,一般取5*5大小,选用反锐化掩膜算法中广泛使用的二维可分离5*5的高斯核对原图进行平滑处理,其值如(2)所示;步骤2.2图像金字塔底层构建:对于给定的512*512原图,向上采样以原图4倍大小的图像构建高斯金字塔的最低层,其对应分辨率为1024*1024;具体过程为:首先将图像在每个方向上扩大为原图像的2倍,其中新增的行和列...

【专利技术属性】
技术研发人员:李建强刘小玲刘朝磊赵琳娜刘素芹徐曦赵青
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1