时空联合模型及基于时空联合模型的视频显著性预测方法技术

技术编号:26764567 阅读:107 留言:0更新日期:2020-12-18 23:40
本发明专利技术公开了一种时空联合模型及基于时空联合模型的视频显著性预测方法,该模型包括空域网络和时域网络;空域网络依次包括收缩网络和扩张网络;收缩网络依次包括3个第一收缩层、1个第二收缩层和上采样层;扩张网络依次包括2个第一扩张层和2个第二扩张层;时域网络包括卷积长短期记忆网络或卷积门控循环网络;扩张网络通过Keras的层封装器TimeDistributed与卷积长短期记忆网络或卷积门控循环网络进行拼接。本发明专利技术实现了对时域信息的利用,使得输出的结果更符合实际情况,能够较好地预测驾驶员在驾驶场景下的注视区域。

【技术实现步骤摘要】
时空联合模型及基于时空联合模型的视频显著性预测方法
本专利技术涉及数字图像处理
,更具体的说是涉及显著性预测的数字图像处理技术。
技术介绍
互联网的快速发展为我们带来了大量的图像、视频数据快速增长数据,人眼无法对这些数据进行及时的处理又不想丢弃掉无法处理的数据。因此设计能够模仿人类视觉机制的算法以辅助人类从大量数据中筛选有效信息很有必要,该类算法的基本目标是预测出图片、视频中最能吸引人注视的区域。依照数据集的构建方式,显著性预测领域的工作可以被分为自顶向下(任务驱动)和自底向上(数据驱动)两种方法:自底向上(数据驱动)的视觉注意机制模型具有数据驱动、自主加工两大特点。此种机制下,显著图的构建仅与图像的底层数据有关,而与人的意识等外在的主观信息无关。该种数据库的构建过程较为简单、发展较为迅速,自底向上(数据驱动)的视觉注意机制模型在目前有着较为成熟的发展和应用。自顶向下(任务驱动)的视觉注意模型在构建数据集时需要根据先验的任务信息构建一定的心理预期,而后在任务的驱动、心理的暗示下识别出感兴趣区域。该种数据集的构建过程较为复杂,自顶向下(任务驱动)的视觉注意模型的发展程度较低。依照使用方法的原理,显著性预测方法可被分为如下两类:基于特征融合理论的显著性预测方法和利用深度学习的显著性预测方法。基于特征融合理论的方法将颜色、梯度、方向等底层特征加入到显著性预测的模型中,后续又尝试利用机器学习算法将图像的低级特征与高级特征进行融合以寻求更好地预测显著性区域的方法。这些方法出现较早,表现效果相对较差。深度学习的显著性预测算法将起始于DeepGaze模型,而后人们开始增加卷积网络的层数并在不同的特征尺度下提取特征,具有代表性的工作有:Cornia等人提出的MLNet模型,Wang等人提出的DVA模型。近来人们开始将注意力机制引入显著性预测的过程中,并取得了一定的成果,具有代表性的有Gorji提出的共享注意力模型。这些方法都是对CNN网络的主体结构进行一定的改动后形成的,都受到CNN网络的桎梏。并且,以上原算法通过利用当前帧的信息得到当前帧的显著性预测结果。现实中的人眼视觉是存在动态机制的,即人眼在当前时刻的注视区域会受到之前的注视内容的影响。原算法并未考虑之前时序上的内容对当前时序预测结果的影响,与实际情况不符。而且原算法大多构建的是数据驱动的模型,该种模型广而不精难以在特定的任务场景中取得良好的效果。因此,如何提供一种符合实际的人眼注意机制以及显著性预测方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种时空联合模型及基于时空联合模型的视频显著性预测方法,实现了对时域信息的利用,使得输出的结果更符合实际情况,能够较好地预测驾驶员在驾驶场景下的注视区域。为了实现上述目的,本专利技术采用如下技术方案:一种时空联合模型,包括:空域网络和时域网络;所述空域网络依次包括收缩网络和扩张网络;所述时域网络包括卷积长短期记忆网络或卷积门控循环网络;所述扩张网络通过Keras的层封装器TimeDistributed与所述卷积长短期记忆网络或所述卷积门控循环网络进行拼接。进一步,所述收缩网络依次包括3个第一收缩层、1个第二收缩层和上采样层;所述扩张网络依次包括2个第一扩张层和2个第二扩张层;第一个所述第一收缩层的输出与第二个所述第一扩张层的输出进行拼接;第二个所述第一收缩层的输出与第一个所述第一扩张层的输出进行拼接;第三个所述第一收缩层的输出与所述上采样的输出进行拼接。进一步,所述第一收缩层依次包括卷积层、批量规范化处理、修正线性单元激活函数、卷积层、批量规范化处理、修正线性单元激活函数和最大池化层;所述第二收缩层依次包括卷积层、批量规范化处理和修正线性单元激活函数;所述第一扩张层依次包括反卷积层、批量规范化处理、修正线性单元激活函数、反卷积层、批量规范化处理、修正线性单元激活函数和上采样层;所述第二扩张层依次包括卷积层、批量规范化处理和修正线性单元激活函数。进一步,所述卷积长短期记忆网络将长短时记忆单元内的数乘运算替换为卷积运算。进一步,所述卷积门控循环网络将门控循环单元内的数乘运算替换为卷积运算。基于时空联合模型的视频显著性预测方法,包括以下步骤:步骤1:根据如权利要求1-5任意一项所述的空域网络提取输入图像的高级语义特征,输出特征图;步骤2:通过Keras的层封装器TimeDistributed将所述特征图输入至如权利要求1-5任意一项所述的时域网络中;步骤3:所述时序网络对各个时序上所述特征图中的高级语义特征进行处理,并通过卷积层得到显著图,其中,所述显著图为灰度图;步骤4:根据灰度级颜色映射方法将所述灰度图转变为热力图,并将所述热力图与所述输入图像按权重分配进行叠加,得到显著性区域。经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种时空联合模型及基于时空联合模型的视频显著性预测方法,通过时空联合机制实现了对时域信息的利用,使得输出的预测结果更符合实际情况;此外还利用交通场景下的数据集构建了任务驱动的显著性模型,使得该模型能够较好地预测驾驶员在驾驶场景下的人眼注视区域。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1附图为本专利技术提供的时空联合模型结构示意图。图2附图为本专利技术提供的空域网络结构示意图。图3附图为本专利技术提供的ConvLSTM网络的原理图。图4附图为利用本专利技术算法在野外或高速公路等人流量、车流量较小的环境下提取的显著性区域效果图。图5附图为利用本专利技术算法当行驶在市区等人流量较多环境下的效果图。图6附图为利用本专利技术算法当行驶在市区等车流量较多环境下的效果图。图7附图为利用本专利技术算法当行驶在市区等交通指示牌环境下的效果图。图8附图为本专利技术算法与res-FCN网络输出的显著性区域效果对比图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1公开了一种时空联合模型的视频显著性预测模型,如图1所示,包括:空域网络和时域网络;其中,空域网络的具体结构如图2所示,包括收缩网络和扩张网络,扩张网络依次包括2个第一扩张层和2个第二扩张层;第一个第一收缩层的输出与第二个第一扩张层的输出进行拼接;第二个第一收缩层的输出与第本文档来自技高网
...

【技术保护点】
1.一种时空联合模型,其特征在于,包括:空域网络和时域网络;/n所述空域网络依次包括收缩网络和扩张网络;/n所述时域网络包括卷积长短期记忆网络或卷积门控循环网络;/n所述扩张网络通过Keras的层封装器TimeDistributed与所述卷积长短期记忆网络或所述卷积门控循环网络进行拼接。/n

【技术特征摘要】
1.一种时空联合模型,其特征在于,包括:空域网络和时域网络;
所述空域网络依次包括收缩网络和扩张网络;
所述时域网络包括卷积长短期记忆网络或卷积门控循环网络;
所述扩张网络通过Keras的层封装器TimeDistributed与所述卷积长短期记忆网络或所述卷积门控循环网络进行拼接。


2.根据权利要求1所述的一种时空联合模型,其特征在于,所述收缩网络依次包括3个第一收缩层、1个第二收缩层和上采样层;
所述扩张网络依次包括2个第一扩张层和2个第二扩张层;
第一个所述第一收缩层的输出与第二个所述第一扩张层的输出进行拼接;
第二个所述第一收缩层的输出与第一个所述第一扩张层的输出进行拼接;
第三个所述第一收缩层的输出与所述上采样的输出进行拼接。


3.根据权利要求2所述的一种时空联合模型,其特征在于,所述第一收缩层依次包括卷积层、批量规范化处理、修正线性单元激活函数、卷积层、批量规范化处理、修正线性单元激活函数和最大池化层;
所述第二收缩层依次包括卷积层、批量规范化处理和修正线性单元激活函数;
所述第一扩张层依次包括反卷积层、批...

【专利技术属性】
技术研发人员:赵丹培郭威威史振威姜志国张浩鹏
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1