【技术实现步骤摘要】
一种基于多视觉记忆单元的扫视路径预测方法
[0001]本专利技术涉及图像扫视路径预测
,主要涉及一种基于多视觉记忆单元的扫视路径预测方法。
技术介绍
[0002]通过人类视觉系统(HVS),人类可以对复杂的视觉环境做出实时反应
‑‑
识别其关键注视点,并通过顺序分析关键注视点的空间相关性来理解整个场景。扫视路径预测是一项模拟HVS的任务,以预测自由观看视觉场景时的眼睛运动轨迹。扫视路径预测对人类如何处理视觉信息提供了有价值的见解,因此在各种领域都有重要的应用,包括人机交互、虚拟现实、视觉搜索、认知心理学。例如,准确预测人类的视觉扫描路径可以帮助虚拟现实中的图形渲染。
[0003]多年来,许多研究人员在模拟HVS中广泛地探索了扫视路径的生成。早期的工作是通过对静态的显著性地图进行广泛证明的视觉规则,如赢家通吃(Winner
‑
Take
‑
All)和抑制返回(Inhibit
‑
Of
‑
Return)来生成扫描路径,然后通过简单地 ...
【技术保护点】
【技术特征摘要】
1.一种基于多视觉记忆单元的扫视路径预测方法,其特征在于,包括以下步骤:步骤S1、搜集多张图片,每张图片均由不同受试者自由观看,采集每个受试者自由观看时产生的真实人眼注视点坐标序列
ꢀꢀ
,其中
ꢀꢀ
为 时间步的真实人眼注视点坐标;步骤S2、 对于每张图片, 利用预先训练好的显著性预测网络提取前
ꢀꢀ
个卷积层输出的语义特征图,得到语义特征图组 ,其中
ꢀꢀ
为显著性预测网络的第 个卷积层输出的语义特征图,以及显著性预测网络最终预测输出的显著图 ;步骤S3、 将语义特征图组
ꢀꢀ
中的语义特征图
ꢀꢀ
,上采样到步骤S1中的图片的尺寸并按通道拼接成特征图
ꢀꢀ
,使用显著图
ꢀꢀ
对得到的特征图
ꢀꢀ
进行空间注意力操作,得到空间位置重加权的特征图 ;步骤S4、将空间位置重加权的特征图 划分为图像块,使用平均池化将每个图像块的区域特征图汇聚成一维特征向量,展平得到一维特征向量序列 ,其中 为第 个图像块的区域特征图汇聚成的一维特征向量,并拼接成视觉特征矩阵 ;步骤S5、将视觉特征矩阵输入到特征编码器中获取一维特征向量间的全局依赖关系;步骤S6、假设当前时间步为,使用时间步生成的注视点坐标初始化时间步的注视点坐标查询向量,与历史时间步的注视点坐标查询向量序列拼接成注视点坐标查询矩阵,注视点坐标查询矩阵经过扫视路径解码器生成注视点坐标嵌入向量序列,其中为时间步的注视点坐标嵌入向量,同时将注视点坐标嵌入向量序列定义为注视点坐标嵌入矩阵;步骤S7、使用混合密度网络来解码 时间步的注视点坐标嵌入向量 ,预测时间步的注视点坐标的概率分布并采样注视点坐标 ,生成扫视路径;步骤S8、利用时间步的真实人眼注视点坐标
ꢀꢀ
优化扫视路径预测模型输出的注视点坐标概率分布,将时间步的真实人眼注视点坐标
ꢀꢀ
被选择概率值最大化,进行梯度反向传播,优化扫视路径预测模型参数,其中所述扫视路径预测模型包括依次串接的显著性预测网络、特征编码器、扫视路径解码器和混合密度网络。2.根据权利要求1所述的一种基于多视觉记忆单元的扫视路径预测方法,其特征在于,步骤S1中,将搜集的多张图片尺寸统一为
ꢀꢀ
分辨率,其中为高度,为宽度,每张图片平均有60名受试者,每名受试者搜集1条真实人眼扫视路径,每条真实人眼扫视路径
由真实人眼注视点坐标序列
ꢀꢀ
组成, 其中 为时间步的真实人眼注视点坐标。3.根据权利要求2所述的一种基于多视觉记忆单元的扫视路径预测方法,其特征在于,步骤S2中显著性预测网络为 SalGAN 网络的生成器模块;将图片输入 SalGAN 网络的生成器模块,输出 SalGAN 网络的生成器模块前 个卷积层产生的语义特征图,得到语义特征图组
ꢀꢀ
以及最终预测的显著图 。4.根据权利要求3所述的一种基于多视觉记忆单元的扫视路径预测方法,其特征在于,步骤 S3 中空间位置重加权的特征图
ꢀꢀ
的生成步骤为:步骤 S3.1、将语义特征图组
ꢀꢀ
中的语义特征图 , 上采样到
ꢀꢀ
分辨率,并按通道拼接成形状为
ꢀꢀ
的特征图
ꢀꢀ
;其中,为通道数,且语义特征图 原始形状为, 语义特征图 的原始形状为,其中下标 1 和 为卷积层的层数;步骤 S3.2、使用显著图
ꢀꢀ
对得到的特征图 进行空间注意力操作, 得到空间位置重加权的特征图 :;其中 代表哈达玛积。5.根据权利要求4所述的一种基于多视觉记忆单元的扫视路径预测方法,其特征在于:...
【专利技术属性】
技术研发人员:仇梦雨,权荣,梁栋,秦杰,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。