一种基于逐通道时空表征学习的视频显著性物体检测方法技术

技术编号:26971492 阅读:55 留言:0更新日期:2021-01-06 00:02
本发明专利技术提出了一种基于逐通道时空表征学习的视频显著性物体检测方法,分为逐通道时空运动表征建模和空间多尺度上下文建模两个部分。逐通道时空运动表征建模构建了时空运动模式到显著性的映射,通过对视频的深度特征进行基于通道的“再变形”,得到每个特定通道位置的时序特征图集合,并独立地在每个通道位置上学习与显著性关联的时空运动模式;多尺度空间上下文建模针对当前帧提取静态显著性信息,采用并行的多个尺度的空洞卷积,获取更为丰富的空间上下文信息;最终显著性预测结果通过融合动态和静态显著性信息得到;本发明专利技术两个模块提供了互相补充的信息,对视频显著性物体检测性能有较大的提升,完整方法与多数现有方法相比效果更好。

【技术实现步骤摘要】
一种基于逐通道时空表征学习的视频显著性物体检测方法
本专利技术涉及计算机视觉领域,具体涉及一种基于逐通道时空表征学习的视频显著性物体检测方法。
技术介绍
视频显著性物体检测旨在提取视频序列中的引起人眼注意的物体区域。给定一段视频序列,视频显著性物体检测任务的目标是生成相应的显著性分布图,表明每帧中显著性区域可能存在的位置。显著性物体检测有着广泛的实际应用价值,例如视频理解,视频压缩,机器交互等。在视频中显著性物体存在形变,遮挡,运动模式不同等现象,因此,视频显著性检测面临极大的挑战,并且引起了高度关注,具有重要的学术和实际价值。近年来有多种视频显著性物体检测的方法被提出,在提取视频的时序运动特征方面,目前的方法基本上采用光流法计算光流场,或采用递归神经网络进行时序特征的建模。光流法实现复杂度高,对计算时间和存储空间的消耗较大,无法根据任务目标进行端到端的优化调整。递归神经网络并行计算能力差,且其学习到的时序记忆信息可解释性不足。为了解决上述问题,本专利技术提出了一种基于逐通道时空表征学习的视频显著性物体检测方法。专利
技术实现思路
本专本文档来自技高网
...

【技术保护点】
1.一种基于逐通道时空表征学习的视频显著性物体检测方法,其特征在于该方法包含如下步骤:/n步骤一、骨干卷积网络模块:利用多层卷积神经网络,对多帧静态图像提取深度特征;/n步骤二、逐通道时空表征学习(CSTR)模块:将多帧图像利用步骤一提取到的深度特征,进行基于通道的“再变形”,即将不同时刻上对应于某个特定通道位置的特征图抽取出来,重新组合得到该通道的时序特征图集合,对每个通道的时序特征集合利用可形变卷积学习其时空运动特征,并映射为显著性特征图;/n步骤三、多尺度空洞卷积(MDC)模块:将当前帧利用步骤一提取到的深度特征,进行多个尺度上的空洞卷积获得多个尺度的空间上下文特征;/n步骤四、预测结果...

【技术特征摘要】
1.一种基于逐通道时空表征学习的视频显著性物体检测方法,其特征在于该方法包含如下步骤:
步骤一、骨干卷积网络模块:利用多层卷积神经网络,对多帧静态图像提取深度特征;
步骤二、逐通道时空表征学习(CSTR)模块:将多帧图像利用步骤一提取到的深度特征,进行基于通道的“再变形”,即将不同时刻上对应于某个特定通道位置的特征图抽取出来,重新组合得到该通道的时序特征图集合,对每个通道的时序特征集合利用可形变卷积学习其时空运动特征,并映射为显著性特征图;
步骤三、多尺度空洞卷积(MDC)模块:将当前帧利用步骤一提取到的深度特征,进行多个尺度上的空洞卷积获得多个尺度的空间上下文特征;
步骤四、预测结果:将步骤二和步骤三的输出特征进行级联,通过一个1×1卷积层和激活函数生成最终的显著性预测结果;
步骤五、更新网络:利用交叉熵和绝对误差作为目标损失函数,计算步骤四生成的显著性图像与人工标注参考图像的损失值,用随机梯度下降法更新网络参数。


2.如权利要求1所述的基于逐通道时空表征学习的显著性物体检测方法,其特征在于,步骤一所述的多层卷积神经网络包括VGG-16网络,ResNet-50网络,ResNet-101网络,DilatedResNet-54网络和DilatedResNet-105网络。


3.根据权利要求1所述的基于逐通道时空表征学习的显著性物体检测方法,其特征在于,步骤二所述的逐通道时空表征学习CSTR模块,输入为经过骨干卷积网络提取的多帧图像的深度特征集合对每...

【专利技术属性】
技术研发人员:李革黄侃
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1