一种基于多级特征融合的视觉显著性预测方法技术

技术编号：38002660 阅读：15 留言：0更新日期：2023-06-30 10:16

本发明专利技术公开了一种基于多级特征融合的视觉显著性预测方法，首先进行数据预处理，构建视觉显著性预测模型，包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块；将预处理后的图像输入构建的视觉显著性预测模型，对模型进行训练；最后通过训练好的视觉显著性预测模型完成视觉显著性预测。本发明专利技术方法模拟人的视觉机制，在面对大量图像信息的时候，可以在很短的时间内过滤掉非重要信息并快速定位到图像中的重要区域，从而以便于后续将有限的计算资源分配给图像视频中更重要的信息。信息。信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多级特征融合的视觉显著性预测方法

[0001]本专利技术涉及计算机视觉领域，具体涉及一种基于多级特征融合的视觉显著性预测方法。

技术介绍

[0002]随着互联网和通信技术的快速发展，人们每天获得的外界信息大幅增长，其中图像信息所包含的信息最为丰富。面对海量的图片和视频信息，快速的从图片和视频中获取有用信息，成为了一个重要问题。
[0003]研究人员发现人类具有快速搜索图片中感兴趣目标的能力，并能自动对感兴趣区域进行处理而选择性的忽略不感兴趣的区域，这些区域即称为显著性区域，这种视觉机制使得人类能在复杂环境下将有限的神经计算资源分配给更重要的目标。人类视觉注意机制有两种策略：(1)自底而上基于数据驱动的注意机制，通常指人们会更倾向于关注与周围具有较强对比度或与周围有明显不同的区域。(2)自上而下基于任务驱动的目标注意机制，这往往由人的认知因素决定，如之前所获得的知识、预期等影响。本专利技术考虑学习人类的视觉机制来进行视觉显著性预测从而快速获取图片重要信息，将有限的计算资源分配给图像视频中更重要的信息。视觉显著性在目标识别，图像视频压缩，图像检索，图像重定向中有着重要的应用价值，视觉显著性计算模型是通过计算机视觉算法区预测图像中那些信息更受到视觉注意的国政，受到当前研究人员的广泛关注和研究。Pan将显著性预测视为回归问题，设计了两个网络分别是一个三层浅层卷积神经网络和一个八层深层卷积神经网络分别进行视觉显著性预测。Cornia通过非线性映射将中级和高级特征结合在一起，然后将其与事先确定好的先验学习进行融合...

【技术保护点】

【技术特征摘要】
1.一种基于多级特征融合的视觉显著性预测方法，其特征在于，包括以下步骤：S1、数据预处理；S2、构建视觉显著性预测模型；所述的视觉显著性预测模型，包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块；所述的编码器模块采用VGG16模型的前5层，去除全连接层以及最后的池化层；S3、将预处理后的图像输入构建的视觉显著性预测模型，对模型进行训练；S4、通过训练好的视觉显著性预测模型完成视觉显著性预测。2.根据权利要求1所述的一种基于多级特征融合的视觉显著性预测方法，其特征在于，所述预处理包括零填充、尺寸调整以及图像标准化三部分；1.1、零填充：对图像进行零填充，使得调整后的每幅图像的高宽比均为3：4；从而保证图像在进行后续尺寸调整过程中能进行等比例的缩放；1.2、尺寸调整；将所有图像的尺寸统一为640
×
480；1.3图像标准化；对尺寸调整后的图像逐通道的进行标准化。3.根据权利要求1所述的一种基于多级特征融合的视觉显著性预测方法，其特征在于，所述的视觉显著性预测模型采用的是编码器
‑
解码器结构，其中编码器模块采用的是VGG16模型的前五层,分别是Encoder1、Encoder2、Encoder3、Encoder4和Encoder5，即去除掉最后的全连接层和最后一个池化层；由于去除了最后一个池化层，VGG16第四层和第五层的输出特征大小一致。4.根据权利要求3所述的一种基于多级特征融合的视觉显著性预测方法，其特征在于，多感受野模块由三个分支构成，每个分支包含一个卷积，每个卷积均为3
×
3大小，空洞率分别设置为0，2，4，获得不同大小的感受野；将不同空洞率的卷积层输出进行串联，从而达到融合不同特征的目的；将融合后的特征进行全局平均池化来获得全局语义信息，并进行线性化操作，即1
×
1卷积操作，将融合后的1536通道的特征缩小为512通道的特征，以便于后续层级间进行特征融合。5.根据权利要求4所述的一种基于多级特征融合的视觉显著性预测方法，其特征在于，为了恢复特征图像的分辨率的同时维持特征的鲁棒性和语义丰富性，在解码器部分采用了层级间的特征融合模块，实现深层特征和浅层特征之间的融合，层级间的特征融合模块由五层解码层构成，分别是Decoder1、Decoder2、Decoder3、Decoder4和Decoder5；解码层由通过三个由3
×
3卷积、批量归一化以及relu激活函数构成；将多感受野模块的输出特征和编码器模块的第五层的特征进行融合作为第一解码层Decoder1的输入，将第一解码层Decoder1的输出再与编码器模块的第四层的输出特征进行融合作为第二解码层Decoder2的输入，依次将解码层的输出与编码器模块的对应编码层的输出进行融合，实现深层特征和浅层特征之间的融合。6.根据权利要求5所述的一种基于多级特征融合的视觉显著性预测方法，其特征在于，输出集成模块将层级间的特征融合模块的五个解码层的输出分别进行一个1

【专利技术属性】
技术研发人员：薛轶天，王琪，颜成钢，高宇涵，孙垚棋，朱尊杰，陈楚翘，王鸿奎，王廷宇，殷海兵，张继勇，李宗鹏，赵治栋，
申请(专利权)人：杭电丽水研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人