System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种全景图像及视频中的扫视路径预测方法、设备及介质技术_技高网

一种全景图像及视频中的扫视路径预测方法、设备及介质技术

技术编号:40998105 阅读:2 留言:0更新日期:2024-04-18 21:37
本发明专利技术公开了一种全景图像及视频中的扫视路径预测方法、设备及介质,涉及扫视路径预测技术领域,方法包括:获取历史扫视路径下的全景图像及视频;采用图像转化方法,将全景图像及视频转为视口序列;将注视位置序列投影到与每一注视位置对应的视口中,得到每一视口中历史路径的相对坐标;将视口序列、每一视口的相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径;本发明专利技术将视口序列、每一视口的历史路径相对坐标序列以及自回归路径先验坐标输入至高斯混合模型,实现对下一时刻扫视路径的预测,提高了扫视路径预测的准确性。

【技术实现步骤摘要】

本专利技术涉及扫视路径预测,特别是涉及一种全景图像及视频中的扫视路径预测方法、设备及介质


技术介绍

1、扫视路径是人们观看全景图像及视频时通过头动和眼动形成的关注点序列。通过对多个用户的全景图像及视频扫视路径进行采样,即可生成对应图像的视觉显著性图(visual saliency map)。但是,与显著性图相比,扫视路径能够更好地描述用户观看图片时的动态模式和时序信息。扫视路径模型的目标不是生成单一的预测扫视路径,而是模拟用户在观看全景图像的行为。作为一种更全面的用户注意力机制描述方法,扫视路径计算建模是计算视觉领域长期以来的研究难点。

2、全景图像方面,assens 等人训练了基于深度神经网络(deep neural networks)的全景图像扫视路径模型,该模型仅简单地拓展了传统图像显著区域检测方法,通过在显著区域采样的方式生成扫视路径。上海交通大学地 zhu 等人通过对显著区域进行聚类,利用贪心算法连接相邻视觉显著点从而生成扫视路径,然而该方法不能对扫视路径进行概率建模。assens 等人延续之前地工作使用生成对抗网络(generative adversarialnetworks, gans)对全景图像扫视路径进行隐式概率建模,生成了更真实扫视路径。以上方法将全景图像的等距长方形投影格式当作传统 2d 图像进行处理,忽略了全景图像的球面特性及投影过程中带来的物体形变失真,从而准确性较低。

3、在全景视频方面,li 等人提出使用用户的历史信息和其他用户的未来信息来预测用户视场的轨迹。nguyen 等人将平面视频的显著性检测模型扩展到全景视频领域,并借助全景视频的显著性图来预测用户的扫视轨迹。北航的 xu 等人提出了全景视频扫视路径的在线预测方法,通过对所要学习的某个用户的部分扫视路径进行拟合,达到预测单个用户扫视路径的目的。该方法因扫视路径数据不足,存在模型过拟合的风险。全景视频自动剪辑算法也将扫视路径预测作为核心算法进行研究。su 等人通过计算 2d 剪辑视频的“值得观看值”,结合基于学习的视口内容表征,用以全景视频扫视路径预测。该方法仅能预测短时间内的扫视路径,缺乏实际意义。hu 等人提出了基于目标检测与强化学习的针对特定运动场景的全景视频扫视路径预测模型。该方法对目标检测算法的精度要求较高同时在应用场景上存在一定的局限性。kang 等人结合全景视频关键帧的视觉显著性和扫视路径的光滑性,提出了一种全景视频扫视路径模型。然而,视觉显著区域并不等同于用户感兴趣的区域,因此该方法不能真实地反映扫视路径的多样性。


技术实现思路

1、本专利技术的目的是提供一种全景图像及视频中的扫视路径预测方法、设备及介质,可以提高预测生成路径的准确性。

2、为实现上述目的,本专利技术提供了如下方案:

3、第一方面,本专利技术提供了一种全景图像及视频中的扫视路径预测方法,包括:

4、获取历史扫视路径下的全景图像及视频;所述历史扫视路径为观看全景图像及视频时的注视位置序列;所述注视位置序列包括多个扫视点;所述扫视点以球坐标形式保存。

5、采用图像转化方法,将所述全景图像及视频转为视口序列;所述视口序列包括多个视口;每一所述视口为任一时刻从任一注视位置观看所述全景图像及视频时对应显示的图形区域。

6、将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标。

7、将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,得到下一时刻扫视点的概率分布,并使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标;所述自回归路径先验坐标为基于当前时刻扫视路径中模型预测得到的下一时刻的扫视点坐标投影到当前时刻注视位置对应的视口所得到的平面坐标,所述自回归路径先验坐标作为补充信息用于估计下一时刻之后的扫视路径。

8、可选的,所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标,具体包括:

9、获取观察者物理模型的状态变量和观测变量;所述状态变量包括初始位置、初始速度和加速度;所述观测变量为任意时刻预测的扫视点;所述扫视点是根据上一时刻预测的扫视点以及当前时刻观察者的速度、加速度以及采样间隔确定的。

10、对于每一时刻预测的扫视点,将所述观察者的加速度作为变量,使用批量梯度下降优化器对所述加速度进行优化;具体为:根据当前时刻扫视点对应的概率分布中随机采样多个参考点,并将采样的参考点作为一组训练样本,利用各所述参考点的均方误差作为目标函数,产生对加速度的梯度,更新加速度。

11、根据当前轮次预测中更新后的加速度调整观察者物理模型,当各所述参考点的均方误差小于阈值时,得到当前轮次预测的扫视路径。

12、可选的,所述采用图像转化方法,将所述全景图像及视频转为视口序列,具体包括:

13、根据所述全景图像及视频,确定所述视口序列中各视口的范围和位置。

14、对于每一视口,基于第一罗德里格旋转公式,将所述视口的中心旋转到当前注视位置,得到旋转后的视口,并对所述旋转后的视口中的像素位置进行旋转,得到旋转后的像素位置。

15、将所述旋转后的像素位置映射到全景图像及视频中,得到所述全景图像及视频对应显示的图形区域。

16、可选的,对于每一视口,基于罗德里格旋转公式,将所述视口的中心旋转到当前视点,得到旋转后的视口,具体包括:

17、根据公式将所述视口的中心旋转到当前视点。

18、其中,q为像素位置,是合成后的旋转矩阵,为像素位置q旋转过后的坐标,分别是的xyz坐标。

19、可选的,将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标,具体包括:

20、将所述注视位置序列投影到三维坐标系中,得到所述注视位置序列中各扫视点的三维坐标表示。

21、基于罗德里格旋转公式,将各所述扫视点的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述注视位置序列在视口内的平面坐标。

22、可选的,基于罗德里格旋转公式,将所述图形区域的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述视口的历史路径相对坐标,具体包括:

23、根据公式,各所述扫视点的三维坐标表示进行旋转。

24、根据公式,将旋转后的三维坐标表示投影到x轴的一设定平面上。

25、根据公式,得到所述视口的历史路径相对坐标。

26、其中,与为视口的宽度与高度,t表示历史路径h被投影到了t时刻的视口,(,)为视口中心坐标,其中,xc,yc,zc为扫视点的三维坐标;xtc,ytc,ztc为扫视点经旋转后的三维坐标表示,r为由全景图像构成的球面图像的球半径,为将坐标投影到x=r平面上,x’tc,本文档来自技高网...

【技术保护点】

1.一种全景图像及视频中的扫视路径预测方法,其特征在于,包括:

2.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标,具体包括:

3.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述采用图像转化方法,将所述全景图像及视频转为视口序列,具体包括:

4.根据权利要求3所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,对于每一视口,基于罗德里格旋转公式,将所述视口的中心旋转到当前视点,得到旋转后的视口,具体包括:

5.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标,具体包括:

6.根据权利要求5所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,基于罗德里格旋转公式,将所述图形区域的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述视口的历史路径相对坐标,具体包括:

7.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径,具体包括:

8.根据权利要求7所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述高斯混合模型的模型训练,具体包括:

9.一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述一种全景图像及视频中的扫视路径预测方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-8中任一项所述一种全景图像及视频中的扫视路径预测方法的步骤。

...

【技术特征摘要】

1.一种全景图像及视频中的扫视路径预测方法,其特征在于,包括:

2.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标,具体包括:

3.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述采用图像转化方法,将所述全景图像及视频转为视口序列,具体包括:

4.根据权利要求3所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,对于每一视口,基于罗德里格旋转公式,将所述视口的中心旋转到当前视点,得到旋转后的视口,具体包括:

5.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标,具体包括:

6.根据权利要求5所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,基于罗德里格旋转公式,将所述图形...

【专利技术属性】
技术研发人员:李穆周天鸣李锦兴卢光明
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1