System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种半监督视频目标分割方法及装置制造方法及图纸_技高网

一种半监督视频目标分割方法及装置制造方法及图纸

技术编号:41274405 阅读:7 留言:0更新日期:2024-05-11 09:27
本发明专利技术公开了一种半监督视频目标分割方法,由编码器将当前帧编码为当前帧特征,再由解码器将经过局部匹配后的当前帧特征解码为目标掩码;由编码器将历史帧编码为历史帧特征,然后基于历史目标掩码在历史帧特征中嵌入目标信息,再提取只包含目标区域的历史帧特征存入自适应记忆池,局部匹配是将自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配;自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩以控制自适应记忆池中历史帧特征的数量范围。本发明专利技术还公开了基于该方法的半监督视频目标分割装置。本发明专利技术能够提升在长视频中的分割速度与精度。

【技术实现步骤摘要】

本专利技术涉及图像识别,特别是涉及一种半监督视频目标分割方法及装置


技术介绍

1、视频目标分割作为在计算机视觉中的一项基础任务,其在自动驾驶、行为识别及视频压缩等领域有着广阔的应用场景。根据提供的掩码程度不同,视频目标分割任务可分为半监督、无监督和交互式视频目标分割。其中半监督视频目标分割任务会在推理过程中提供视频第一帧的目标掩码,与无监督和交互式视频目标分割相比,半监督视频目标分割模型往往精度更高,推理速度更快,模型实现相对容易。

2、基于记忆网络的半监督视频目标分割方法利用基于深度学习在特征提取方面的优势提高了精度和分割速度。基于记忆网络的方法在分割过程中会维护一个记忆网络,该网络存储了所有历史帧的特征信息。在对当前帧进行分割时,会将记忆网络中的历史帧信息与当前帧进行相似度计算,然后通过自注意力机制的方式提取历史帧中的特征,最后与当前帧特征进行融合并通过上采样的方式得到目标掩码。

3、然而,基于记忆网络的方法高度依赖历史帧中的特征信息,随着视频长度的增加,记忆网络存储的历史帧信息会越来越多,导致分割速度越来越慢,并且记忆网络中存储了大量冗余的背景噪音,导致模型在长视频中的分割精度会下降。


技术实现思路

1、针对上述现有技术的缺陷,本专利技术提供了一种半监督视频目标分割方法,解决长视频分割精度和速度降低的问题。本专利技术的另一目的是提供一种半监督视频目标分割装置及相应的计算机存储介质。

2、本专利技术技术方案如下:一种半监督视频目标分割方法,包括以下步骤:

3、由编码器将当前帧编码为当前帧特征,再由解码器将经过局部匹配后的当前帧特征解码为目标掩码;

4、由编码器将历史帧编码为历史帧特征,然后基于历史目标掩码在历史帧特征中嵌入目标信息,再提取只包含目标区域的历史帧特征存入自适应记忆池,所述局部匹配是将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配;

5、所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩以控制所述自适应记忆池中历史帧特征的数量范围;

6、其中,所述历史帧是位于当前帧时间线之前的视频帧,初始时视频第一帧为历史帧。

7、进一步地,所述基于历史目标掩码在历史帧特征中嵌入目标信息是将历史帧掩码转为onehot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,再融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。

8、进一步地,提取只包含目标区域的历史帧特征具体是:

9、针对第 i个历史帧的历史目标掩码中的任意一个位置(x,y),都有(x,y)∈[0,1,2...n],其中0代表背景,1~n分别表示视频中含有的n个目标;

10、获取包含每个目标区域的矩形框,()和()分别指是包含第 j个目标的矩形框的左上角坐标和右下角坐标,其中

11、,

12、w为特征的宽,h为特征的高,

13、生成注意力图,

14、,

15、通过注意力图对历史帧特征进行目标区域提取并将空间维度展平为一维得到只包含目标区域的历史帧特征。

16、进一步地,()和()由下式确定

17、,

18、为设定的扩张系数。

19、进一步地,所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩是在自适应记忆池中特征数量达到设定阈值时,将前 s can个候选特征压缩为 p个特征,候选特征包括候选键特征为和候选值特征为,c为特征通道数;

20、首先计算当前帧键特征与候选键特征的相似度:

21、,

22、其中,为当前帧的键特征,w为特征的宽,h为特征的高;

23、接着对中的第一个维度求和并得到;

24、然后利用top p操作挑选数值最大的 p个索引,根据索引提取键特征得到;

25、最后聚集压缩后的值特征:

26、。

27、进一步地,所述局部匹配时将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配通过下式进行:

28、,

29、其中为当前帧的键特征,为拼接后的历史帧的键特征,为拼接后的历史帧的值特征,c为特征通道数,为局部匹配后的当前帧特征。

30、本专利技术还提供一种半监督视频目标分割装置,包括:

31、编码器模块,用于将当前帧编码为当前帧特征,将历史帧编码为历史帧特征;

32、解码器模块,用于将经过局部匹配后的当前帧特征解码为目标掩码;

33、身份识别模块,用于基于历史目标掩码在历史帧特征中嵌入目标信息;

34、局部提取模块,用于提取只包含目标区域的历史帧特征存入自适应记忆池;

35、局部匹配模块,用于将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配;

36、以及特征压缩模块,用于对所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩以控制所述自适应记忆池中历史帧特征的数量范围;

37、其中,所述历史帧是位于当前帧时间线之前的视频帧,初始时视频第一帧为历史帧。

38、进一步地,身份识别模块包括编码卷积模块和融合模块,所述编码卷积模块将历史帧掩码转为onehot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,所述融合模块用于融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。

39、进一步地,局部提取模块包括矩形框提取模块、注意力模块以及特征生成模块,针对第 i个历史帧的历史目标掩码中的任意一个位置(x,y),都有(x,y)∈[0,1,2...n],其中0代表背景,1~n分别表示视频中含有的n个目标;

40、所述矩形框提取模块获取包含每个目标区域的矩形框,()和()分别指是包含第 j个目标的矩形框的左上角坐标和右下角坐标,其中

41、,

42、w为特征的宽,h为特征的高,

43、所述注意力模块生成注意力图,

44、,

45、所述特征生成模块通过注意力图对历史帧特征进行目标区域提取并将空间维度展平为一维得到只包含目标区域的历史帧特征。

46、进一步地,()和()由下式确定

47、,

48、为设定的扩张系数。

49、进一步地,所述特征压缩模块包括相似度计算模块、本文档来自技高网...

【技术保护点】

1.一种半监督视频目标分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的半监督视频目标分割方法,其特征在于,所述基于历史目标掩码在历史帧特征中嵌入目标信息是将历史帧掩码转为OneHot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,再融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。

3.根据权利要求1所述的半监督视频目标分割方法,其特征在于,提取只包含目标区域的历史帧特征具体是:

4.根据权利要求3所述的半监督视频目标分割方法,其特征在于,()和()由下式确定

5.根据权利要求1所述的半监督视频目标分割方法,其特征在于,所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩是在自适应记忆池中特征数量达到设定阈值时,将前Scan个候选特征压缩为P个特征,候选特征包括候选键特征为和候选值特征为,C为特征通道数;

6.根据权利要求1所述的半监督视频目标分割方法,其特征在于,所述局部匹配时将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配通过下式进行:p>

7.一种半监督视频目标分割装置,其特征在于,包括:

8.根据权利要求7所述的半监督视频目标分割装置,其特征在于,所述身份识别模块包括编码卷积模块和融合模块,所述编码卷积模块将历史帧掩码转为OneHot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,所述融合模块用于融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。

9.根据权利要求7所述的半监督视频目标分割装置,其特征在于,所述局部提取模块包括矩形框提取模块、注意力模块以及特征生成模块,针对第i个历史帧的历史目标掩码中的任意一个位置(x,y),都有(x,y)∈[0,1,2...N],其中0代表背景,1~N分别表示视频中含有的N个目标;

10.根据权利要求9所述的半监督视频目标分割装置,其特征在于,()和()由下式确定

11.根据权利要求7所述的半监督视频目标分割装置,其特征在于,所述特征压缩模块包括相似度计算模块、求和模块和特征提取聚合模块,在自适应记忆池中特征数量达到设定阈值时,将前Scan个候选特征压缩为P个特征,候选特征包括候选键特征为和候选值特征为,C为特征通道数;

12.根据权利要求7所述的半监督视频目标分割装置,其特征在于,所述局部匹配模块将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配通过下式进行:

...

【技术特征摘要】

1.一种半监督视频目标分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的半监督视频目标分割方法,其特征在于,所述基于历史目标掩码在历史帧特征中嵌入目标信息是将历史帧掩码转为onehot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,再融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。

3.根据权利要求1所述的半监督视频目标分割方法,其特征在于,提取只包含目标区域的历史帧特征具体是:

4.根据权利要求3所述的半监督视频目标分割方法,其特征在于,()和()由下式确定

5.根据权利要求1所述的半监督视频目标分割方法,其特征在于,所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩是在自适应记忆池中特征数量达到设定阈值时,将前scan个候选特征压缩为p个特征,候选特征包括候选键特征为和候选值特征为,c为特征通道数;

6.根据权利要求1所述的半监督视频目标分割方法,其特征在于,所述局部匹配时将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配通过下式进行:

7.一种半监督视频目标分割装置,其特征在于,包括:

8.根据权利要求7所述的半监督...

【专利技术属性】
技术研发人员:钟珊李国强闫海英毕安琪沈健严卫
申请(专利权)人:常熟理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1