一种数字图像分割方法及装置制造方法及图纸

技术编号:38315204 阅读:19 留言:0更新日期:2023-07-29 08:57
本发明专利技术涉及图像分割领域,具体提供了一种数字图像分割方法及装置,图像分割分支中首先连接一个COSAM,包括空间注意力和通道注意力,获得的特征图再输入SRIM,先降维,实现对象关联,将特征图中的每个像素与其中一个物体关联,使用多头自注意力促进物体特征间的交互;最后升维,获得上下文感知的特征。与现有技术相比,本发明专利技术有效地解决了传统方法复杂繁琐地弊端,将object queries设置为参数共享的queries并加入padding,从可视化角度看来取得了非常好的分割效果。了非常好的分割效果。了非常好的分割效果。

【技术实现步骤摘要】
一种数字图像分割方法及装置


[0001]本专利技术涉及图像分割领域,具体提供一种数字图像分割方法及装置。

技术介绍

[0002]数字图像分割是计算机视觉及多媒体处理的基础工作。随着近些年网络图像的海量出现及图像数据规模的不断增加,众多实际应用对图像分割的需求由小规模的单幅图像分割不断向大规模的图像间协同分割发展,即图像协同分割问题。
[0003]在过去数年中多种协同分割算法被相继提出并成功地应用于实际问题中。但由于起步较晚,协同分割在基础模型构建与理论分析及图像间语义区域相似性衡量分析等核心问题上进展缓慢。同时在与实际问题的结合中也暴露了协同分割性能不足的挑战。研究有效的协同分割模型构建理论、语义前景相似性衡量模型并改善实际应用中协同分割的分割性能是众多计算机视觉和多媒体应用的迫切需求,如何进一步提高协同分割的性能是本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的数字图像分割方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理,安全适用的数字图像分割装置。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种数字图像分割方法,图像分割分支中首先连接一个COSAM,包括空间注意力和通道注意力,获得的特征图再输入SRIM,先降维,实现对象关联,将特征图中的每个像素与其中一个物体关联,使用多头自注意力促进物体特征间的交互;
[0008]最后升维,获得上下文感知的特征。
[0009]进一步的,使用decoder解码器,decoder解码器的损失函数为:
[0010][0011]L=L
GSB
+λL
CoSB

KL
L
KL
ꢀꢀꢀꢀ
(2)。
[0012]进一步的,使用pipeline,所述pipeline训练分为四部分,分别为Visual&Linguistic Feature Extraction、Multimodal Transformer、Instance Sequence Segmentation&Reference Prediction和Instance Sequence Matching。
[0013]进一步的,所述Visual&Linguistic Feature Extraction在输入Multimodal Transformer之前,需要先对视频和文本提取特征;
[0014]对于文本特征的提取使用的是Transformer

based[1]的文本编码器,对于视频特征的提取,使用Video Swin Transformer[2]做视频编码器对每一个视频帧提取特征;
[0015]最后,文本特征和视频特征将分别通过线性层映射到同一维度下,其中视频帧的特征图在flatten后与文本特征做拼接,作为Multimodal Transformer的输入。
[0016]进一步的,所述Multimodal Transformer,对于TI个视频帧,特征提取器得到TI个多模态特征序列,得到的所述特征序列将被并列输入Multimodal Transformer,在Multimodal Transformer的decoder部分,模型为每一帧输入Nq个object queries,每一帧的输出同样是一个多模态序列;
[0017]需要注意的是,不同帧之间queries的权重是共享的,即用于表示视频中相同的物体。
[0018]进一步的,所述Instance Sequence Segmentation&Reference Prediction,为了实现instance segmentation,模型会对所述Nq个queries得到的每个物体序列生成一个掩码序列;
[0019]首先,将Multimodal Transformer的encoder层输出的多模态表征序列中与视觉模态相关的部分取出,将与visual feature extractor前n

1个blocks的特征做了FPN

like的空间解码,得到一个新的视频帧特征图序列,即:
[0020][0021]模型中Multimodal Transformer的decoder层输出可以得到Nq个物体序列Q={qt}t=1Tt,根据这Nq个物体序列计算条件分割核序列作为卷积核,即:
[0022][0023]最后,将条件分割核序列与对应视频帧特征进行卷积,为每个物体生成用于图像分割的掩码序列,并通过双线性上采样调整掩码的尺寸,即:
[0024][0025]为了实现Reference Prediction,模型则对decoder输出的每个物体做预测,判断是否与文本描述相关,即转化为二分类任务;
[0026]需要注意的是,额外设计了一个padding用于处理不在object queries内的其他物体。
[0027]进一步的,所述Instance Sequence Matching,通过匈牙利算法,确定最优的预测结果和标注信息的匹配,最终模型需要优化的损失函数如下:
[0028][0029][0030][0031]为了保证预测出的掩码和ground

truth之间的对齐,LMask的设计上结合了Dice loss和Focal loss;
[0032]结果在A2D

Sentences、JHMDB

Sentences和Refer

YouTube

VOS评估均得到了非常出色的表现。
[0033]一种数字图像分割装置,包括:至少一个存储器和至少一个处理器;
[0034]所述至少一个存储器,用于存储机器可读程序;
[0035]所述至少一个处理器,用于调用所述机器可读程序,执行一种数字图像分割方法。
[0036]本专利技术的一种数字图像分割方法及装置和现有技术相比,具有以下突出的有益效果:
[0037]本专利基于多模态Transformer的图像分割框架MTTR,用于端到端地解决RVOS任务。在多个数据集上均取得了SOTA的表现。使用Video Swin Transformer作为visual encoder,从而替代过去常用的3D visual encoder,如I3D。使用Video Swin Transformer的目的是可以很好的整合时空信息,同时由于其temporal的下采样层只有一层,从而可以很好的调整为dense的输出,为每一帧提供一个spatial

temporal的表征。这种结构可以适用于许多既需要motion信息,又需要dense输出,同时要保证spatial信息的质量的相关任务。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字图像分割方法,其特征在于,图像分割分支中首先连接一个COSAM,包括空间注意力和通道注意力,获得的特征图再输入SRIM,先降维,实现对象关联,将特征图中的每个像素与其中一个物体关联,使用多头自注意力促进物体特征间的交互;最后升维,获得上下文感知的特征。2.根据权利要求1所述的一种数字图像分割方法,其特征在于,使用decoder解码器,decoder解码器的损失函数为:L=L
GSB
+λL
CoSB

KL
L
KL
ꢀꢀꢀꢀ
(2)。3.根据权利要求2所述的一种数字图像分割方法,其特征在于,使用pipeline,所述pipeline训练分为四部分,分别为Visual&Linguistic Feature Extraction、Multimodal Transformer、Instance Sequence Segmentation&Reference Prediction和Instance Sequence Matching。4.根据权利要求3所述的一种数字图像分割方法,其特征在于,所述Visual&Linguistic Feature Extraction在输入Multimodal Transformer之前,需要先对视频和文本提取特征;对于文本特征的提取使用的是Transformer

based[1]的文本编码器,对于视频特征的提取,使用Video Swin Transformer[2]做视频编码器对每一个视频帧提取特征;最后,文本特征和视频特征将分别通过线性层映射到同一维度下,其中视频帧的特征图在flatten后与文本特征做拼接,作为Multimodal Transformer的输入。5.根据权利要求4所述的一种数字图像分割方法,其特征在于,所述Multimodal Transformer,对于TI个视频帧,特征提取器得到TI个多模态特征序列,得到的所述特征序列将被并列输入Multimodal Transformer,在Multimodal Transformer的decoder部分,模型为每一帧输入Nq个object queries,每一帧的输出同样是一个多模态序列;需要注意的是,不同帧之间queries的权重是...

【专利技术属性】
技术研发人员:郭清轩王培元徐兵兵
申请(专利权)人:山东浪潮超高清智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1