当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

一种全景图像及视频中的扫视路径预测方法、设备及介质技术

技术编号：40998105 阅读：2 留言：0更新日期：2024-04-18 21:37

本发明专利技术公开了一种全景图像及视频中的扫视路径预测方法、设备及介质，涉及扫视路径预测技术领域，方法包括：获取历史扫视路径下的全景图像及视频；采用图像转化方法，将全景图像及视频转为视口序列；将注视位置序列投影到与每一注视位置对应的视口中，得到每一视口中历史路径的相对坐标；将视口序列、每一视口的相对坐标以及自回归路径先验坐标输入至高斯混合模型，并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径；本发明专利技术将视口序列、每一视口的历史路径相对坐标序列以及自回归路径先验坐标输入至高斯混合模型，实现对下一时刻扫视路径的预测，提高了扫视路径预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及扫视路径预测，特别是涉及一种全景图像及视频中的扫视路径预测方法、设备及介质。

技术介绍

1、扫视路径是人们观看全景图像及视频时通过头动和眼动形成的关注点序列。通过对多个用户的全景图像及视频扫视路径进行采样，即可生成对应图像的视觉显著性图（visual saliency map）。但是，与显著性图相比，扫视路径能够更好地描述用户观看图片时的动态模式和时序信息。扫视路径模型的目标不是生成单一的预测扫视路径，而是模拟用户在观看全景图像的行为。作为一种更全面的用户注意力机制描述方法，扫视路径计算建模是计算视觉领域长期以来的研究难点。

2、全景图像方面，assens 等人训练了基于深度神经网络（deep neural networks）的全景图像扫视路径模型，该模型仅简单地拓展了传统图像显著区域检测方法，通过在显著区域采样的方式生成扫视路径。上海交通大学地 zhu 等人通过对显著区域进行聚类，利用贪心算法连接相邻视觉显著点从而生成扫视路径，然而该方法不能对扫视路径进行概率建模。assens 等人延续之前地工作使用生成对抗网络（generative adversarialnetworks, gans）对全景图像扫视路径进行隐式概率建模，生成了更真实扫视路径。以上方法将全景图像的等距长方形投影格式当作传统 2d 图像进行处理，忽略了全景图像的球面特性及投影过程中带来的物体形变失真，从而准确性较低。

3、在全景视频方面，li 等人提出使用用户的历史信息和其他用户的未来信息来预测用户视场的轨迹。nguyen

技术实现思路

1、本专利技术的目的是提供一种全景图像及视频中的扫视路径预测方法、设备及介质，可以提高预测生成路径的准确性。

2、为实现上述目的，本专利技术提供了如下方案：

3、第一方面，本专利技术提供了一种全景图像及视频中的扫视路径预测方法，包括：

4、获取历史扫视路径下的全景图像及视频；所述历史扫视路径为观看全景图像及视频时的注视位置序列；所述注视位置序列包括多个扫视点；所述扫视点以球坐标形式保存。

5、采用图像转化方法，将所述全景图像及视频转为视口序列；所述视口序列包括多个视口；每一所述视口为任一时刻从任一注视位置观看所述全景图像及视频时对应显示的图形区域。

6、将所述注视位置序列投影到与每一注视位置对应的所述视口中，得到每一所述视口的历史路径相对坐标。

7、将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型，得到下一时刻扫视点的概率分布，并使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样，预测下一时刻的扫视点坐标；所述自回归路径先验坐标为基于当前时刻扫视路径中模型预测得到的下一时刻的扫视点坐标投影到当前时刻注视位置对应的视口所得到的平面坐标，所述自回归路径先验坐标作为补充信息用于估计下一时刻之后的扫视路径。

8、可选的，所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样，预测下一时刻的扫视点坐标，具体包括：

9、获取观察者物理模型的状态变量和观测变量；所述状态变量包括初始位置、初始速度和加速度；所述观测变量为任意时刻预测的扫视点；所述扫视点是根据上一时刻预测的扫视点以及当前时刻观察者的速度、加速度以及采样间隔确定的。

10、对于每一时刻预测的扫视点，将所述观察者的加速度作为变量，使用批量梯度下降优化器对所述加速度进行优化；具体为：根据当前时刻扫视点对应的概率分布中随机采样多个参考点，并将采样的参考点作为一组训练样本，利用各所述参考点的均方误差作为目标函数，产生对加速度的梯度，更新加速度。

11、根据当前轮次预测中更新后的加速度调整观察者物理模型，当各所述参考点的均方误差小于阈值时，得到当前轮次预测的扫视路径。

12、可选的，所述采用图像转化方法，将所述全景图像及视频转为视口序列，具体包括：

13、根据所述全景图像及视频，确定所述视口序列中各视口的范围和位置。

14、对于每一视口，基于第一罗德里格旋转公式，将所述视口的中心旋转到当前注视位置，得到旋转后的视口，并对所述旋转后的视口中的像素位置进行旋转，得到旋转后的像素位置。

15、将所述旋转后的像素位置映射到全景图像及视频中，得到所述全景图像及视频对应显示的图形区域。

16、可选的，对于每一视口，基于罗德里格旋转公式，将所述视口的中心旋转到当前视点，得到旋转后的视口，具体包括：

17、根据公式将所述视口的中心旋转到当前视点。

18、其中，q为像素位置，是合成后的旋转矩阵，为像素位置q旋转过后的坐标，分别是的xyz坐标。

19、可选的，将所述注视位置序列投影到与每一注视位置对应的所述视口中，得到每一所述视口的历史路径相对坐标，具体包括：

20、将所述注视位置序列投影到三维坐标系中，得到所述注视位置序列中各扫视点的三维坐标表示。

21、基于罗德里格旋转公式，将各所述扫视点的三维坐标表示进行旋转，并将旋转后的三维坐标表示投影到x轴的一设定平面上，得到所述注视位置序列在视口内的平面坐标。

22、可选的，基于罗德里格旋转公式，将所述图形区域的三维坐标表示进行旋转，并将旋转后的三维坐标表示投影到x轴的一设定平面上，得到所述视口的历史路径相对坐标，具体包括：

23、根据公式，各所述扫视点的三维坐标表示进行旋转。

24、根据公式，将旋转后的三维坐标表示投影到x轴的一设定平面上。

25、根据公式，得到所述视口的历史路径相对坐标。

26、其中，与为视口的宽度与高度，t表示历史路径h被投影到了t时刻的视口，（，）为视口中心坐标，其中，xc，yc，zc为扫视点的三维坐标；xtc，ytc，ztc为扫视点经旋转后的三维坐标表示，r为由全景图像构成的球面图像的球半径，为将坐标投影到x=r平面上，x’tc，本文档来自技高网...

【技术保护点】

1.一种全景图像及视频中的扫视路径预测方法，其特征在于，包括：

2.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样，预测下一时刻的扫视点坐标，具体包括：

3.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，所述采用图像转化方法，将所述全景图像及视频转为视口序列，具体包括：

4.根据权利要求3所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，对于每一视口，基于罗德里格旋转公式，将所述视口的中心旋转到当前视点，得到旋转后的视口，具体包括：

5.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，将所述注视位置序列投影到与每一注视位置对应的所述视口中，得到每一所述视口的历史路径相对坐标，具体包括：

6.根据权利要求5所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，基于罗德里格旋转公式，将所述图形区域的三维坐标表示进行旋转，并将旋转后的三维坐标表示投影到x轴的一设定平面上，得到

7.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型，并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径，具体包括：

8.根据权利要求7所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，所述高斯混合模型的模型训练，具体包括：

9.一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述一种全景图像及视频中的扫视路径预测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-8中任一项所述一种全景图像及视频中的扫视路径预测方法的步骤。

...

【技术特征摘要】

1.一种全景图像及视频中的扫视路径预测方法，其特征在于，包括：

6.根据权利要求5所述的一种全景图像及视频中的扫视路径预测方法，其特征在于，基于罗德里格旋转公式，将所述图形...

【专利技术属性】
技术研发人员：李穆，周天鸣，李锦兴，卢光明，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人