一种基于多级特征融合的视觉显著性预测方法技术

技术编号:38002660 阅读:15 留言:0更新日期:2023-06-30 10:16
本发明专利技术公开了一种基于多级特征融合的视觉显著性预测方法,首先进行数据预处理,构建视觉显著性预测模型,包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块;将预处理后的图像输入构建的视觉显著性预测模型,对模型进行训练;最后通过训练好的视觉显著性预测模型完成视觉显著性预测。本发明专利技术方法模拟人的视觉机制,在面对大量图像信息的时候,可以在很短的时间内过滤掉非重要信息并快速定位到图像中的重要区域,从而以便于后续将有限的计算资源分配给图像视频中更重要的信息。信息。信息。

【技术实现步骤摘要】
一种基于多级特征融合的视觉显著性预测方法


[0001]本专利技术涉及计算机视觉领域,具体涉及一种基于多级特征融合的视觉显著性预测方法。

技术介绍

[0002]随着互联网和通信技术的快速发展,人们每天获得的外界信息大幅增长,其中图像信息所包含的信息最为丰富。面对海量的图片和视频信息,快速的从图片和视频中获取有用信息,成为了一个重要问题。
[0003]研究人员发现人类具有快速搜索图片中感兴趣目标的能力,并能自动对感兴趣区域进行处理而选择性的忽略不感兴趣的区域,这些区域即称为显著性区域,这种视觉机制使得人类能在复杂环境下将有限的神经计算资源分配给更重要的目标。人类视觉注意机制有两种策略:(1)自底而上基于数据驱动的注意机制,通常指人们会更倾向于关注与周围具有较强对比度或与周围有明显不同的区域。(2)自上而下基于任务驱动的目标注意机制,这往往由人的认知因素决定,如之前所获得的知识、预期等影响。本专利技术考虑学习人类的视觉机制来进行视觉显著性预测从而快速获取图片重要信息,将有限的计算资源分配给图像视频中更重要的信息。视觉显著性在目标识别,图像视频压缩,图像检索,图像重定向中有着重要的应用价值,视觉显著性计算模型是通过计算机视觉算法区预测图像中那些信息更受到视觉注意的国政,受到当前研究人员的广泛关注和研究。Pan将显著性预测视为回归问题,设计了两个网络分别是一个三层浅层卷积神经网络和一个八层深层卷积神经网络分别进行视觉显著性预测。Cornia通过非线性映射将中级和高级特征结合在一起,然后将其与事先确定好的先验学习进行融合来进行视觉显著性预测。

技术实现思路

[0004]本专利技术所要解决的技术问题是:针对处理图片过程有中由于包含的大量信息造成的资源浪费问题,为了合理分配计算资源,需要采取一些方法能够快速定位到图片中更重要的区域。
[0005]针对上述实际情况,本专利技术提出了一种基于多级特征融合的视觉显著性预测方法。
[0006]一种基于多级特征融合的视觉显著性预测方法,包括以下步骤:
[0007]S1、数据预处理。
[0008]S2、构建视觉显著性预测模型。
[0009]所述的视觉显著性预测模型,包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块。所述的编码器模块采用VGG16模型的前5层,去除全连接层以及最后的池化层。
[0010]S3、将预处理后的图像输入构建的视觉显著性预测模型,对模型进行训练。
[0011]S4、通过训练好的视觉显著性预测模型完成视觉显著性预测。
[0012]本专利技术的有益效果:
[0013]本专利技术所使用的方法模拟人的视觉机制,在面对大量图像信息的时候,可以在很短的时间内过滤掉非重要信息并快速定位到图像中的重要区域,从而以便于后续将有限的计算资源分配给图像视频中更重要的信息。
附图说明
[0014]图1为本专利技术实施例视觉显著性预测模型结构示意图。
具体实施方式
[0015]以下结合附图及实施例,对本专利技术进行进一步的详细说明。
[0016]一种基于多级特征融合的视觉显著性预测方法,详细步骤如下。
[0017]步骤S1、数据预处理:
[0018]预处理包括零填充、尺寸调整以及图像标准化三部分。
[0019]1.1、零填充:
[0020]数据集中的图像大小不一致,为了保证当图像以相同的大小进入到模型中时,图像不会由于调整过大而对预测结果造成影响,需要先对图像进行零填充,使得调整后的每幅图像的高宽比均为3:4。从而保证图像在进行后续尺寸调整过程中能进行等比例的缩放。
[0021]1.2、尺寸调整;
[0022]将所有图像的尺寸统一为640
×
480。
[0023]1.3图像标准化;
[0024]对尺寸调整后的图像逐通道的进行标准化,有助于加速模型的收敛速度。
[0025]步骤S2、构建视觉显著性预测模型。
[0026]如图1所示,所述的视觉显著性预测模型包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块。所述的编码器模块采用VGG16模型的前5层,去除全连接层以及最后的池化层。
[0027]2.1、编码器模块
[0028]所述的视觉显著性预测模型采用的是编码器

解码器结构,其中编码器模块采用的是VGG16模型的前五层,分别是Encoder1、Encoder2、Encoder3、Encoder4和Encoder5,即去除掉最后的全连接层和最后一个池化层。由于去除了最后一个池化层,VGG16第四层和第五层的输出特征大小一致。VGG16是视觉显著性预测领域比较常用的深度神经网络,主要用于图像特征的提取。
[0029]2.2、多感受野模块;
[0030]多感受野模块的出发点是模拟人类视觉的感受野从而加强网络的特征提取能力。多感受野模块由三个分支构成,每个分支包含一个卷积,每个卷积均为3
×
3大小,空洞率分别设置为0,2,4,获得不同大小的感受野。将不同空洞率的卷积层输出进行串联,从而达到融合不同特征的目的。将融合后的特征进行全局平均池化来获得全局语义信息,并进行线性化操作,即1
×
1卷积操作,将融合后的1536通道的特征缩小为512通道的特征,以便于后续层级间进行特征融合。
[0031]2.3、层级间的特征融合模块;
[0032]VGG16模型中的下采样操作丰富了深度特征的语义信息并增强了几何变换的鲁棒性,但同时也使得深度特征变得非常模糊。为了恢复特征图像的分辨率的同时维持特征的鲁棒性和语义丰富性,在解码器部分本专利技术采用了层级间的特征融合模块,实现深层特征和浅层特征之间的融合,层级间的特征融合模块由五层解码层构成,分别是Decoder1、Decoder2、Decoder3、Decoder4和Decoder5;解码层由通过三个由3
×
3卷积、批量归一化以及relu激活函数构成。将多感受野模块的输出特征和编码器模块的第五层的特征进行融合作为第一解码层Decoder1的输入,将第一解码层Decoder1的输出再与编码器模块的第四层的输出特征进行融合作为第二解码层Decoder2的输入,依次将解码层的输出与编码器模块的对应编码层的输出进行融合,实现深层特征和浅层特征之间的融合。
[0033]2.4、输出集成模块;
[0034]将层级间的特征融合模块的五个解码层的输出分别进行一个1
×
1的卷积操作,并将Decoder1

Decoder4解码层的输出进行上采样以保证和第五解码层Decoder5的输出的分辨率大小一致,然后将五层输出串联在一起,最后通过一个1
×
1的卷积操作得到最终的预测结果。
[0035]2.5、损失函数;
[0036]视觉显著性预测中经常使用评价指标作为损失函数,考虑到这些指标的有效性,本专利技术提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多级特征融合的视觉显著性预测方法,其特征在于,包括以下步骤:S1、数据预处理;S2、构建视觉显著性预测模型;所述的视觉显著性预测模型,包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块;所述的编码器模块采用VGG16模型的前5层,去除全连接层以及最后的池化层;S3、将预处理后的图像输入构建的视觉显著性预测模型,对模型进行训练;S4、通过训练好的视觉显著性预测模型完成视觉显著性预测。2.根据权利要求1所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,所述预处理包括零填充、尺寸调整以及图像标准化三部分;1.1、零填充:对图像进行零填充,使得调整后的每幅图像的高宽比均为3:4;从而保证图像在进行后续尺寸调整过程中能进行等比例的缩放;1.2、尺寸调整;将所有图像的尺寸统一为640
×
480;1.3图像标准化;对尺寸调整后的图像逐通道的进行标准化。3.根据权利要求1所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,所述的视觉显著性预测模型采用的是编码器

解码器结构,其中编码器模块采用的是VGG16模型的前五层,分别是Encoder1、Encoder2、Encoder3、Encoder4和Encoder5,即去除掉最后的全连接层和最后一个池化层;由于去除了最后一个池化层,VGG16第四层和第五层的输出特征大小一致。4.根据权利要求3所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,多感受野模块由三个分支构成,每个分支包含一个卷积,每个卷积均为3
×
3大小,空洞率分别设置为0,2,4,获得不同大小的感受野;将不同空洞率的卷积层输出进行串联,从而达到融合不同特征的目的;将融合后的特征进行全局平均池化来获得全局语义信息,并进行线性化操作,即1
×
1卷积操作,将融合后的1536通道的特征缩小为512通道的特征,以便于后续层级间进行特征融合。5.根据权利要求4所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,为了恢复特征图像的分辨率的同时维持特征的鲁棒性和语义丰富性,在解码器部分采用了层级间的特征融合模块,实现深层特征和浅层特征之间的融合,层级间的特征融合模块由五层解码层构成,分别是Decoder1、Decoder2、Decoder3、Decoder4和Decoder5;解码层由通过三个由3
×
3卷积、批量归一化以及relu激活函数构成;将多感受野模块的输出特征和编码器模块的第五层的特征进行融合作为第一解码层Decoder1的输入,将第一解码层Decoder1的输出再与编码器模块的第四层的输出特征进行融合作为第二解码层Decoder2的输入,依次将解码层的输出与编码器模块的对应编码层的输出进行融合,实现深层特征和浅层特征之间的融合。6.根据权利要求5所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,输出集成模块将层级间的特征融合模块的五个解码层的输出分别进行一个1

【专利技术属性】
技术研发人员:薛轶天王琪颜成钢高宇涵孙垚棋朱尊杰陈楚翘王鸿奎王廷宇殷海兵张继勇李宗鹏赵治栋
申请(专利权)人:杭电丽水研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1