当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于双模态交互和状态反馈的快速实时视频目标分割方法技术

技术编号:31497951 阅读:41 留言:0更新日期:2021-12-18 12:42
本发明专利技术公开了一种基于双模态交互和状态反馈的快速实时视频目标分割方法,包括以下步骤:步骤一、模型训练,利用服务器对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于双模态交互和状态反馈的快速实时视频目标分割方法的网络权重;步骤二、模型推断,利用训练阶段获得的网络权重,在新的视频序列中分割第一帧给定的目标。通过双模态特征交互,加强目标外观表示的学习,减弱背景中外形特征相似、颜色相似的目标的干扰,使系统能够在复杂的环境中准确地分割目标;以及通过状态反馈固定存储器有效容量并自适应地更新存储器中的特征,使系统能够有效利用历史帧中的目标信息,并具有较高的推断速度和内存利用效率。存利用效率。存利用效率。

【技术实现步骤摘要】
一种基于双模态交互和状态反馈的快速实时视频目标分割方法


[0001]本专利技术属于计算机视觉的
,具体涉及一种基于双模态交互和状态反馈的快速实时目标分割方法。

技术介绍

[0002]视频目标分割是计算机视觉领域的基本任务之一,在现实生活中具有重要的应用价值和意义,例如视频剪辑、自动驾驶等。在深度学习的推动下,视频目标分割任务取得了很大的进展。本技术主要面向的是半监督视频目标分割任务,在测试时要求用户提供第一帧(通常情况)或关键帧的目标掩膜,算法自动分割其余视频帧。由于目标遮挡、变形、运动模糊和比例变换等问题,半监督视频目标分割任务最具挑战性的一点在于如何学习到稳定的目标外观。
[0003]目前,半监督视频目标分割任务主流的算法大致可分为两大类,在线学习方法和离线学习方法。在线学习方法在推断过程中根据历史帧(通常是第一帧)及其掩膜来微调模型,让模型学习当前分割的视频序列中的目标外观,能够有效提升分割结果质量,但通常速度较慢;离线学习方法在推断过程中不更新模型参数,通常结合目标跟踪等技术,或者使用各种匹配方法来离线学习目标外观,通常速本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双模态交互与状态反馈的快速实时视频目标分割方法,其特征在于,包括以下步骤:步骤一、模型训练,利用服务器对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,获得基于双模态交互与状态反馈的快速实时视频目标分割的网络权重;步骤二、模型推断,利用训练阶段获得的网络权重,在新的视频序列分割第一帧给定的目标。2.根据权利要求1所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法,其特征在于,所述步骤一的模型训练具体包括以下步骤:S11、利用服务器执行训练视频片段生成单元,生成长度为T的训练视频片段,其中T≥2;S12、利用服务器执行查询编码单元,进行查询图像键值编码对的提取,当前帧图像为I
t
,查询图像键值编码对为t表示时刻,t>1,Q表示查询图像;S13、利用服务器执行参考编码单元,利用保护图像分支和掩膜分支的不共享参数的双分支残差网络,提取参考帧图像特征和参考帧目标掩膜特征并进行双模态交互,参考帧图像的上一帧图像为I
t
‑1,参考帧目标掩膜的上一帧目标掩膜预测结果为M
t
‑1,输出参考键值编码对并存储于存储器中,R表示参考图像,M是指存储器的等效容量的最大值;S14、利用服务器执行掩膜重建单元,对输入到步骤S13中的掩膜分支的目标掩膜预测结果进行重建,输出重建后的目标掩膜;S15、利用服务器执行状态估计单元,对所述步骤S13中输入的目标掩膜预测结果进行状态估计,提供状态反馈,输出预测的状态分数s
t
‑1;S16、利用服务器执行匹配单元,根据查询图像键值编码对来检索存储器中历史帧特征中的信息,得到最终的匹配特征;S17、利用服务器执行解码单元,输出查询帧最终的分割结果M
t
;S18、利用服务器进行网络训练,采用端到端的方式训练;具体为,将分割损失函数L
s
、重建损失函数L
r
和状态评估损失函数L
e
进行联合,并使用自适应权重来自动平衡各部分损失函数,得到最终的总损失函数L
total
;S19、利用服务器优化目标函数,目标函数采用所述步骤S18中的总损失函数L
total
,获取局部最优网络参数作为基于双模态融合和状态反馈的快速实时视频目标分割的网络权重。3.根据权利要求2所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法,其特征在于,所述步骤S11具体为:从多个视频数据集的任意视频中有间隔地随机抽取T张图像,将T张图像分别进行T次不同的仿射变换,仿射变换包括平移、缩放、翻转、旋转和剪切,形成训练视频片段;或者,从图像数据集中任意抽取一张图像,进行T次不同的仿射变换,形成训练视频片段。4.根据权利要求2所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法,其特征在于,所述步骤S13具体为:利用包含图像分支和掩膜分支这一不共享参数的双分支残差网络分别对输入的参考帧图像和参考帧目标掩膜预测结果进行特征提取;再将掩
膜分支的每个阶段的特征和图像分支对应阶段的特征分别通过一个挤压激励块后相加;然后将相加后的特征注入到图像分支;最后图像分...

【专利技术属性】
技术研发人员:刘勇梅剑标王蒙蒙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1