【技术实现步骤摘要】
一种基于逐通道时空表征学习的视频显著性物体检测方法
本专利技术涉及计算机视觉领域,具体涉及一种基于逐通道时空表征学习的视频显著性物体检测方法。
技术介绍
视频显著性物体检测旨在提取视频序列中的引起人眼注意的物体区域。给定一段视频序列,视频显著性物体检测任务的目标是生成相应的显著性分布图,表明每帧中显著性区域可能存在的位置。显著性物体检测有着广泛的实际应用价值,例如视频理解,视频压缩,机器交互等。在视频中显著性物体存在形变,遮挡,运动模式不同等现象,因此,视频显著性检测面临极大的挑战,并且引起了高度关注,具有重要的学术和实际价值。近年来有多种视频显著性物体检测的方法被提出,在提取视频的时序运动特征方面,目前的方法基本上采用光流法计算光流场,或采用递归神经网络进行时序特征的建模。光流法实现复杂度高,对计算时间和存储空间的消耗较大,无法根据任务目标进行端到端的优化调整。递归神经网络并行计算能力差,且其学习到的时序记忆信息可解释性不足。为了解决上述问题,本专利技术提出了一种基于逐通道时空表征学习的视频显著性物体检测方法。专利 ...
【技术保护点】
1.一种基于逐通道时空表征学习的视频显著性物体检测方法,其特征在于该方法包含如下步骤:/n步骤一、骨干卷积网络模块:利用多层卷积神经网络,对多帧静态图像提取深度特征;/n步骤二、逐通道时空表征学习(CSTR)模块:将多帧图像利用步骤一提取到的深度特征,进行基于通道的“再变形”,即将不同时刻上对应于某个特定通道位置的特征图抽取出来,重新组合得到该通道的时序特征图集合,对每个通道的时序特征集合利用可形变卷积学习其时空运动特征,并映射为显著性特征图;/n步骤三、多尺度空洞卷积(MDC)模块:将当前帧利用步骤一提取到的深度特征,进行多个尺度上的空洞卷积获得多个尺度的空间上下文特征; ...
【技术特征摘要】
1.一种基于逐通道时空表征学习的视频显著性物体检测方法,其特征在于该方法包含如下步骤:
步骤一、骨干卷积网络模块:利用多层卷积神经网络,对多帧静态图像提取深度特征;
步骤二、逐通道时空表征学习(CSTR)模块:将多帧图像利用步骤一提取到的深度特征,进行基于通道的“再变形”,即将不同时刻上对应于某个特定通道位置的特征图抽取出来,重新组合得到该通道的时序特征图集合,对每个通道的时序特征集合利用可形变卷积学习其时空运动特征,并映射为显著性特征图;
步骤三、多尺度空洞卷积(MDC)模块:将当前帧利用步骤一提取到的深度特征,进行多个尺度上的空洞卷积获得多个尺度的空间上下文特征;
步骤四、预测结果:将步骤二和步骤三的输出特征进行级联,通过一个1×1卷积层和激活函数生成最终的显著性预测结果;
步骤五、更新网络:利用交叉熵和绝对误差作为目标损失函数,计算步骤四生成的显著性图像与人工标注参考图像的损失值,用随机梯度下降法更新网络参数。
2.如权利要求1所述的基于逐通道时空表征学习的显著性物体检测方法,其特征在于,步骤一所述的多层卷积神经网络包括VGG-16网络,ResNet-50网络,ResNet-101网络,DilatedResNet-54网络和DilatedResNet-105网络。
3.根据权利要求1所述的基于逐通道时空表征学习的显著性物体检测方法,其特征在于,步骤二所述的逐通道时空表征学习CSTR模块,输入为经过骨干卷积网络提取的多帧图像的深度特征集合对每...
【专利技术属性】
技术研发人员:李革,黄侃,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。