一种面向全景视频的视点预测方法、装置及介质制造方法及图纸

技术编号:35004902 阅读:61 留言:0更新日期:2022-09-21 14:55
本发明专利技术公开一种面向全景视频的视点预测方法、装置及介质,应用于虚拟现实领域的全景视频传输。首先,基于目标用户视点的历史轨迹来预测目标用户未来视点的位置,得到初步的预测结果;然后,在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息;最后,将初步预测结果和相似用户的未来信息输入到SE

【技术实现步骤摘要】
一种面向全景视频的视点预测方法、装置及介质


[0001]本专利技术涉及虚拟现实领域,特别是涉及一种面向全景视频的视点预测方法、装置及介质。

技术介绍

[0002]随着虚拟现实(Virtual Reality,VR)技术的不断发展,作为VR技术的一项基础技术,全景视频是一个水平方向跨度为360度,垂直方向跨度为180度的全环绕空间球动态视频,它可以最大程度地拓展观众的视野范围,用户通常可以从各个方向和任意角度自由地观看视频。
[0003]全景视频比传统视频包含了更多的信息,它具有更高的分辨率和比特率编码。全景视频相关的技术主要包括四个部分:全景视频采集、全景视频拼接、全景视频投影和全景视频编码。全景视频的采集通常使用专业的全景摄影机来完成,诸如Insta360、三星Gear360以及Google Jump等。全景视频拼接是通过视频缝合技术将多个全景摄像头采集到的内容合成全景视频数据。全景视频投影是将全景视频的空间球面图像转化为二维平面的媒体格式,目前应用比较多的全景视频投影方式有等距柱状投影(EquirectangularProjection,ERP)、多面体投影(Platonic SolidProjection,PSP)、正方棱台投影(Truncated Square Projection,TSP)等投影方式。全景视频主流的编码方式有HEVC和H.264等编码标准。
[0004]全景视频的传输过程是先将全景视频通过投影变换转化为平面矩形视频,然后利用普通视频的编码技术进行传输。传统的全景视频传输方案是把空间球内所有内容都传输给用户,但人眼的注意力范围有限,人们只关注自己感兴趣的区域,对于不感兴趣的区域是很少关注的。如果将空间球内所有的信息都无差别地传输给用户,那么不感兴趣的视频信息必然会浪费有限的网络带宽。
[0005]为了解决全景视频传输过程中带宽资源浪费问题,研究人员提出了一种基于用户自身视口(Field ofView,FOV)的传输方案—FOV传输方案。在传输过程中,终端接收到的一帧数据中不再包含空间球所有的内容,而是根据用户视口信息构造对应的帧数据,即一帧数据中只包含等于或大于用户当前的视口信息。对于视口范围内的视频信息以较高的比特率进行传输,而对于视角以外其他区域的视频信息则以较低的比特率进行传输,或者直接不传输。因此,有效地预测用户视点并确定用户视口的范围,可以在节约带宽资源的前提下为用户提供更好的服务质量(Quality ofService,QoS)。
[0006]近年来,深度学习在学术界和工业界得到了广泛的发展和应用,结合深度学习的视点预测方法是全景视频领域的一个热点研究问题。有研究人员利用LSTM(Long

Short

Term Memory)结合用户在观看视频时的头部运动的历史轨迹进行视点预测,然而,该方法预测超过1s后,它的准确率会严重下降,即长期预测的准确性不高。因此,提高长期预测的准确性是本领域技术人员亟需解决的。

技术实现思路

[0007]基于现有方法的不足,本专利技术公开一种面向全景视频的视点预测方法、装置以及介质,它可以提高视点长期预测的准确率,有效地提升用户观看全景视频的体验感。
[0008]为解决上述技术问题,本方法提供一种面向全景视频的视点预测的方法,该方法包括:获取目标观众观看全景视频时视点的历史轨迹并转化为热力图;将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果;在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息;将初步预测结果和相似用户的未来信息输入SE

Unet网络模型,输出用户的长期预测结果。
[0009]优选地,获取目标观众观看全景视频时视点的历史轨迹并转化为热力图,包括:定义热力图的热值时,目标用户眼睛注视点的热值最高,距离注视点越远热值越低,而用户视口外的热值均设为0。
[0010]优选地,将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果,包括:将目标用户视点的历史轨迹热力图输入seq2seq模型,在学习完用户视点的历史轨迹特征后生成初步预测结果,其中seq2seq模型基于ConvLSTM得到。
[0011]优选地,在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息,包括:将已观看该全景视频的用户信息作为专家数据,在专家数据中筛选出n个与目标用户视点历史轨迹相匹配的相似用户,n可进行自由设置,并根据相似度来分配权重,即相似度越高权重越大,按相应的权重进行加权平均计算得到相似用户的未来信息。
[0012]优选地,将初步预测结果和相似用户的未来信息输入SE

Unet网络模型,输出用户视点的最终预测结果。本专利技术提供的SE

Unet预测模型是一种基于深度学习的神经网络模块,包括:SE

Unet模型是由一个编码模块、连接模块和一个解码模块组成。编码模块包含三个相同结构块的重复应用,按照先后顺序依次是:两个无填充的卷积层,每一层后面都连接了一个校正线性单元(ReLU);紧跟其后是SE

net模块;它用来学习各个通道之间的重要性;最后加入批量标准化层(BN)和最大池化层,最大池化层用于下采样,在每一个下采样步骤中,特征通道的数量增加一倍。连接模块用于连接编码模块和解码模块,使用的是一层卷积和一个校正线性单元(ReLU)的组合。解码模块中包含三个结构块,其中前两个结构块相同,按照顺序依次是:一个将特征通道数量减半的反卷积和校正线性单元(ReLU)的组合,再拼接上编码模块中对应的结构块;最后一个结构块按照顺序依次是:反卷积、校正线性单元(ReLU)和输入批量标准化层(BN)。
[0013]为解决上述技术问题,本专利技术提供了面向全景视频的视点预测装置,包括:获取模块,获取目标观众观看全景视频时视点的历史轨迹并转化为热力图;预测模块,将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果;学习模块,在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得
到相似用户的未来信息;融合预测模块,将初步预测结果和相似用户的未来信息输入SE

Unet网络模型,输出用户视点的最终预测结果。
[0014]为解决上述技术问题,本专利技术还提供了面向全景视频的视点预测装置,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现上述视点预测方法的步骤。眼动仪,用于实时地采集目标用户在观看全景视频时眼睛注视点的位置信息。
[0015]为解决上述技术问题,本专利技术还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述视点预测方法的步骤。
[0016]本专利技术提供的一种面向全景视频的视点预测方法,该方法包括:获取目标观众观看全景视频时视点的历史轨迹并转化为热力图,将目标用户视点的历史轨迹热力图输入seq本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向全景视频的视点预测方法,其特征在于,包括:获取目标观众观看全景视频时视点的历史轨迹并转化为热力图;将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果;在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息;将初步预测结果和相似用户的未来信息输入SE

Unet网络模型,输出用户视点的最终预测结果。2.根据权利要求1所述的一种面向全景视频的视点预测方法,其特征在于,获取目标观众观看全景视频时视点的历史轨迹并转化为热力图,包括:定义热力图的热值时,目标用户眼睛注视点的热值最高,离注视点越远热值越低,用户视口以外的热值均设为0。3.根据权利要求1所述的一种面向全景视频的视点预测方法,其特征在于,将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果,包括:所述的seq2seq模型是基于两个独立的三层ConvLSTM作为编码器

解码器得到。4.根据权利要求1所述的一种面向全景视频的视点预测方法,其特征在于,在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息,包括:在专家数据中筛选出n个与目标用户视点的历史轨迹相匹配的相似用户,n可根据实际需求进行设置,并根据相似度来分配权重,即相似度越高权重越大,按相应的权重进行加权平均计算得到相似用户的未来信息。5.根据权利要求1所述的一种面向全景视频视点预测方法,其特征在于,将初步预测结果和相似用户的未来信息输入SE

Unet网络模型,输出用户视点的最终预测结果,包括:SE

Unet模型是一个深度学习的网络模型,它由一个编码模块、连接模块和一个解码模块组成。6.根据权利要求5所述的一种面向全景视频的视点预测方法,其特征在于,SE

Unet模型是由一个编码模块、连接模块和一个解码模块组成,还包括:编码模块包含三个相同结构块的重复应用,结构块按照先后顺序依次是:一个卷...

【专利技术属性】
技术研发人员:董苹苹左育宁肖凯李雅菁谢小卫张连明沈荣成
申请(专利权)人:湖南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1