基于众包眼动数据的全景图视觉显著性预测方法和系统技术方案

技术编号:37722973 阅读:16 留言:0更新日期:2023-06-02 00:24
本发明专利技术公开了基于众包眼动数据的全景图视觉显著性预测方法和系统,基于用户回忆和自我报告的众包式眼动跟踪方式去收集全景图像的众包式眼动数据。该眼动数据同时考虑了众包用户浏览全景图像时的全局视觉特征和局部视觉特征。通过该众包式眼动跟踪方法构建了全景图像眼动数据集CrowdSourcing360。利用该数据集构建并训练了全景图像视觉显著性预测模型CSnet360,并对CSnet360模型生成的显著性结果进行了可视化处理。本发明专利技术对于全景图像视觉显著性预测性能较优异,使用众包式眼动数据不仅能提高眼动数据收集效率,降低模型过拟合风险,还能让视觉显著性模型学习到人眼的视觉感知特征,并输出精确的视觉显著性预测结果。并输出精确的视觉显著性预测结果。并输出精确的视觉显著性预测结果。

【技术实现步骤摘要】
基于众包眼动数据的全景图视觉显著性预测方法和系统


[0001]本申请属于人机交互、视觉显著性等领域,具体涉及到基于众包眼动数据的全景图视觉显著性预测方法和系统。

技术介绍

[0002]视觉显著性预测是指依赖算法来模拟人眼的视觉特点,找出图像中显著区域,该区域同样是人眼感兴趣区域。视觉显著性可以将相对有限的计算资源重新分配给图像中重要的信息,其反映的结果更能满足人类的视觉认知需求。随着虚拟现实应用的兴起,预测全景图像视觉注意力信息对于创作者理解用户视觉行为来说是非常有价值的,并且也可以用来改善算法。
[0003]近些年来由于深度卷积网络的快速发展,传统二维图像领域的视觉显著性预测已经得到了广泛的研究,也为传统二维图像提出了很多的显著性预测模型,同时也建立了丰富数据集。虽然上述的一些显著性预测模型在二维图像上显著性预测性能较为优异,但其都并不能很好适用于全景图像。而且其中多数视觉显著性模型是利用图像本身颜色,亮度等低级特征进行的显著性预测。这类模型仅单纯使用图像特征而没有引入人类视觉特征的因素,其预测效果自然不能真实反映人类视觉特征,所以需要利用真实的眼动数据来构建视觉显著性预测模型。在利用传统眼动设备来获取图像的眼动数据时会遇到收集成本昂贵、效率低下、数据精度较差等问题,更何况使用传统设备去收集全景图像的眼动数据来构建全景图像的视觉显著性预测模型。由于大多数观察者只对全景图像的部分区域感兴趣,所以研究全景图像的视觉显著性预测,来理解用户的视觉行为就变得十分重要。为了能解决上述问题,本文在利用众包用户注视点回忆和报告的方法之上,提出了一种基于众包式眼动数据的全景图像视觉显著性预测方法和系统。

技术实现思路

[0004]本专利技术克服了现有技术的缺点,提供了基于众包眼动数据的全景图视觉显著性预测方法和系统。通过众包回忆注视点的方法,构建了目前最大的基于众包式眼动数据的全景图像数据集CrowdSourcing360,该数据集对比现有的全景图像眼动数据集有较大的优势;通过实验验证了基于该数据集所训练全景图像显著性预测模型的可行性,提出了基于众包式眼动数据的全景图像显著性模型CSnet360;结合该模型开发了全景图像视觉显著性预测系统。
[0005]为了实现上述目的,本申请技术方案如下:
[0006]基于众包眼动数据的全景图视觉显著性预测方法,利用众包式眼动数据训练视觉显著性模型,向模型输入全景图像来预测其的视觉显著性,包括如下步骤:
[0007]1)采集众包式眼动数据:
[0008]通过在众包平台发布浏览图像并回忆注视点任务,回忆注视点任务包括两个:一个收集局部注视点,另一个收集全局注视点;然后将全局、局部注视点热区图按比例融合;
最后构建基于众包回忆注视点形式的全景图像眼动数据集CrowdSourcing360;
[0009]2)构建视觉显著性模型:
[0010]视觉显著性模型是以VGG网络为基础,将网络中的全连接层都用卷积层替换,得到全卷积网络结构;输入图像每经过一次池化层,其宽和高都会相对前者输出长度缩短一半,经过所有的卷积层和池化层后,输入图像尺寸会变成原来的1/32;视觉显著性模型结构预测层通道数为1,在经过预测层后使用反卷积进行上采样操作,将经过多层卷积后的输入图像恢复到原来的尺寸,再最后输出之前调用Logistic函数,将网络预测值映射到[0,1]的区间内产生最终的视觉显著性预测结果;
[0011]3)训练视觉显著性模型:
[0012]训练视觉显著性模型分两个阶段:预训练阶段和微调训练阶段;预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对应的显著性图;预训练可使模型具备二维图像视觉显著性预测能力;微调训练阶段使用全景图像众包式眼动数据集CrowdSourcing360,微调训练完毕,即得到全景图像视觉显著性模型CSnet360。
[0013]4)可视化模型预测显著性结果:
[0014]训练完毕的视觉显著性模型所输出的显著性预测结果为一张二值图像,白色区域对应图像显著性高的区域,黑色区域对应图像显著性低的区域;将二值图像中的黑白颜色映射为RGB颜色,并叠加原始全景图像,使得预测的显著性结果呈现效果更直观。
[0015]进一步的,步骤1)中的回忆注视点任务具体过程如下:
[0016]一个是,浏览全景图像经等距柱状投影ERP生成的等距柱状图像后,回忆并点击注视点所在位置,注视点数据将依靠高斯算法生成全景图像的全局注视点热区图;
[0017]另一个是,浏览全景图像经立方体投影CMP生成的6个直线图像后,在图像上回忆并点击注视点所在位置,注视点数据将依靠高斯算法生成全景图像的局部注视点热区图。
[0018]进一步的,步骤3)具体过程如下:
[0019]预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对应的显著性图;然后,基于二值交叉嫡损失,并利用真实显著性图来监督网络的训练;预训练时使用SALICON图像的输入尺寸为640*480像素,初始学习率为10
‑5,学习率每经过2个epochs下降到先前的十分之一,共迭代6个epochs;微调训练阶段使用全景图像众包式眼动数据集CrowdSourcing360;全景图像的输入尺寸为原始图像尺寸的十分之一,初始学习率为10
‑6,共迭代了200个epochs;基于线性相关系数CC、归一化扫描路径显著性NSS、相对熵KL三个显著性度量指标构建模型的二值交叉熵损失函数,以改善不同因素下的性能并优化模型训练;
[0020]损失函数如下:
[0021]L=μ
BCE

BCE
L1+L
BCE
(S
pre
,S
gt
)
[0022][0023]其中S
pre
,S
gt
分别表示CSnet360预测的显著性图和众包回忆注视点热区图;μ
BCE
,σ
BCE
分别表示CSnet360在预测图像显著性时所计算L
BCE
的平均值和标准差;其中L
BCE
函数定义如下式:
[0024][0025]其中i表示图像像素坐标,N表示像素数目。式中的分别表示KL、CC的归一化函数。
[0026]进一步的,所述的基于众包眼动数据的全景图视觉显著性预测方法,基于用户回忆和自我报告的众包式眼动跟踪方式去收集全景图像的众包式眼动数据。该眼动数据同时考虑了众包用户浏览全景图像时的全局视觉特征和局部视觉特征。在对众包实验过程中涉及不同参数对众包式眼动数据精度的影响作分析后确定了众包实验中的最优参数。
[0027]进一步的,所述的基于众包眼动数据的全景图视觉显著性预测方法,在虚拟现实场景下构建了基于支持向量回归的误差补偿模型用于收集的众包式眼动根据。最后建立了一个基于众包回忆注视点形式的全景图像眼动数据集。
[0028]进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于众包眼动数据的全景图视觉显著性预测方法,其特征在于,利用众包式眼动数据训练视觉显著性模型,向模型输入全景图像来预测其的视觉显著性,包括如下步骤:1)采集众包式眼动数据:通过在众包平台发布浏览图像并回忆注视点任务,回忆注视点任务包括两个:一个收集局部注视点,另一个收集全局注视点;然后将全局、局部注视点热区图按比例融合;最后构建基于众包回忆注视点形式的全景图像眼动数据集CrowdSourcing360;2)构建视觉显著性模型:视觉显著性模型是以VGG网络为基础,将网络中的全连接层都用卷积层替换,得到全卷积网络结构;输入图像每经过一次池化层,其宽和高都会相对前者输出长度缩短一半,经过所有的卷积层和池化层后,输入图像尺寸会变成原来的1/32;视觉显著性模型结构预测层通道数为1,在经过预测层后使用反卷积进行上采样操作,将经过多层卷积后的输入图像恢复到原来的尺寸,再最后输出之前调用Logistic函数,将网络预测值映射到[0,1]的区间内产生最终的视觉显著性预测结果;3)训练视觉显著性模型:训练视觉显著性模型分两个阶段:预训练阶段和微调训练阶段;预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对应的显著性图;预训练可使模型具备二维图像视觉显著性预测能力;微调训练阶段使用全景图像众包式眼动数据集CrowdSourcing360,微调训练完毕,即得到全景图像视觉显著性模型CSnet360;4)可视化模型预测显著性结果:训练完毕的视觉显著性模型所输出的显著性预测结果为一张二值图像,白色区域对应图像显著性高的区域,黑色区域对应图像显著性低的区域;将二值图像中的黑白颜色映射为RGB颜色,并叠加原始全景图像,形成眼动热区图,使得预测的显著性结果呈现效果更直观。2.根据权利要求1所述的基于众包眼动数据的全景图视觉显著性预测方法,其特征在于:步骤1)中的回忆注视点任务具体过程如下:一个是,浏览全景图像经等距柱状投影ERP生成的等距柱状图像后,回忆并点击注视点所在位置,注视点数据将依靠高斯算法生成全景图像的全局注视点热区图;另一个是,浏览全景图像经立方体投影CMP生成的6个直线图像后,在图像上回忆并点击注视点所在位置,注视点数据将依靠高斯算法生成全景图像的局部注视点热区图。3.根据权利要求1所述的基于众包眼动数据的全景图视觉显著性预测方法,其特征在于:步骤3)具体过程如下:预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对...

【专利技术属性】
技术研发人员:程时伟沈泽鹏
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1