【技术实现步骤摘要】
基于U2net的目标检测方法、系统、计算机设备及其存储介质
[0001]本专利技术涉及目标检测
,尤其涉及基于U2net的目标检测方法、系统、计算机设备及其存储介质。
技术介绍
[0002]在计算机视觉中,显著性目标检测的代表性应用包括图像理解、目标检测、无监督的视频目标分割、语义分割、行人重识别、视频归纳等。在计算机图形学中,显著性目标检测在逼真渲染、自动图像裁剪、图像重新定向等各种任务中起着至关重要的作用。机器人技术中的示例性应用,例如人机交互和目标发现也可以从显著性目标检测中受益,以更好地理解场景或目标对象。BASNet在loss的设计上,使用了交叉熵、结构相似性损失、IoU损失这三种的混合损失,使网络更关注于边界质量,而不是像以前那样只关注区域精度,U2Net提出了RSU(ReSidual U
‑
blocks)结构,能够捕捉更多的上下文信息,融合了不同尺度的感受野的特征,它增加了整个架构的深度但并没有显著增加计算成本,因为在这些RSU块中使用了池化操作。然而现有的U2Net技术并没有注重分割的 ...
【技术保护点】
【技术特征摘要】
1.一种基于U2net的目标检测方法,其特征在于,包括:将初始图片输入至多个连续的编码层内进行特征编码,并获取每个编码层对应的编码特征图;将最后一层编码层对应的编码特征图输入自注意力模块进行权重调整,并将调整后的编码特征图输入至第一层解码层内进行解码操作,得到解码特征图;将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图;将所述多级特征图输入至第二层解码层内进行解码操作,得到对应的解码特征图,并将倒数第二层编码层对应的编码特征图和第二层解码层的解码特征图作为新的输入数据输入至交叉注意力模块内进行训练,得到新的多级特征图;依此类推,直至得到最后一层解码层对应的多级特征图,并作为目标特征图。2.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述编码层进行特征编码的过程如下,包括:将待编码图片输入至卷积核为3
×
64
×
3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第一池化结果;将所述第一池化结果输入至卷积核为64
×
128
×
3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第二池化结果;将所述第二池化结果输入至卷积核为128
×
256
×
3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,得到编码特征图。3.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述第一层解码层的解码操作包括:将所述编码特征图输入至自注意力模块进行权重调整,并将调整后的编码特征图输入至卷积核为256
×
128
×
3的卷积层中进行卷积操作,并将卷积结果输入至上采样层进行卷积操作,得到上采样卷积结果;将所述上采样卷积结果输入至卷积核为128
×
64
×
3的卷积层中进行卷积操作,并将卷积结果输入至ReLU激活层中进行激活,再输入至最大池化层内进行池化处理,得到第四池化结果;将所述第四池化结果输入至卷积核为64
×1×
3的卷积层中进行卷积操作,并将卷积结果输入至sigmoid函数内进行计算,得到解码特征图。4.根据权利要求1所述的基于U2net的目标检测方法,其特征在于,所述将最后一层编码层对应的编码特征图和第一层解码层对应的解码特征图作为输入数据输入至交叉注意力模块内进行训练,得到多级特征图,包括:将所述编码特征图输入至自注意力模块内进行向量调整,得到第一矩阵向量,并所述第一矩阵向量以及所述编码特征图进行残差连接以及归一化处理,得到第一归一化结果;将所述解码特征图输入至自注意力模块内进行向量调整,得到第二矩阵向量,并将所述第二向量以及所述解码特征图进行残差连接以及归一化处理,得到第二归一化结果;提取所述第一矩阵向量中的第一K向量和第一V向量以及所述第二归一化结果中的第二Q向量,并利用交叉注意力机制对所述第二Q向量、第一K向量和第一V向量进行计算,并对
计算结果进行残差连接以及归一化处理,得到第三归一化结果;将第三归一化结果输入至全连接前馈神经网络层内进行卷积,并将卷积结果和所述第三归一化结果进行残差连接以及归一化处理,得到第四归一化结果;提取所述第四归一化结果中的第三K向量和第三V向量以及所述第一归一化结果中的第四Q向量,并利用交叉注意力机制对所述第四Q向量、第三...
【专利技术属性】
技术研发人员:杨松,
申请(专利权)人:深圳万兴软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。