多重CNN网络预测全景视频观看位置的方法和系统技术方案

技术编号:21957479 阅读:17 留言:0更新日期:2019-08-24 20:56
本发明专利技术提供一种多重CNN网络预测全景视频观看位置的方法和系统,其中:基于前一段时间的观看轨迹,运用神经网络方法预测出下一时刻的观看点;将要预测时刻的全景视频帧映射成多个方向上的小视频帧,每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将所述显著图合并成整个的视频帧的显著图,再将所述整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图;将预测的所述观看点和所述全景视频帧显著图输入到全连接网络,得到最终的预测点即全景视频观看位置点。本发明专利技术综合考虑了观看视频时的时间连续性和全景视频的映射失真问题,并将两者结合起来得到最终的最优预测点,因而能够实现较高的预测准确率。

A Method and System for Predicting the Viewing Position of Panoramic Video Based on Multi-CNN Network

【技术实现步骤摘要】
多重CNN网络预测全景视频观看位置的方法和系统
本专利技术涉及预测全景视频的观看位置的方法,具体地说,涉及的是一种基于多重卷积神经网络的预测全景视频观看位置的方法、系统。
技术介绍
近些年来,视频流量仍然占据着整个网络流量的很大部分,并且全景视频因其独特的沉浸式体验得到了迅速的发展。但是因为全景视频数据量较大,对网络环境有相当高的要求,如果不加一定的预处理,目前的网络基础配置根本不足以传输如此庞大的信息量。因此我们要解决的问题就是使传输的数据量减小,但同时能够尽可能的保持视频质量,而通过对全景视频中观看位置的预测,再根据已有的全景视频空间分块传输协议,如MPEG-DASH等,即可提前传输观众想要观看的那部分视频,较高的预测准确率能够提高观众的观看体验并更加充分合理的利用有限的网络资源。对观看全景视频时的视角进行预测有几个较难解决的问题,不同的观众对同一个视频的感兴趣的区域可能有较大的差别;同一个观众对不同的视频内容观看区域也会千差万别,有很大的随机性;由于全景视频的数据量要比普通视频大几倍,所以即使是同一个观众对同一个视频进行观看,某一时刻的观看点也会有较大的不确定性。近些年来对全景视频的视角预测方法已经提出很多种,但是多是考虑的不够全面,比如有的方法是根据之前的观看轨迹对接下来时刻的视角进行预测,采用的具体方法有线性回归和神经网络等,这样做可以达到一定的准确率。考虑到在预测时加入相应时刻的视频帧的显著区域,可以进一步缩小可预测的范围,预测的准确率应该会有相应的提高。而且因为视频播放时内容会不可避免地出现切换场景等时刻,而这时还根据之前的轨迹预测就会有较大的误差,所以根据已有的视频帧的显著区域来纠正预测区域和提高预测准确率就显得尤为重要。
技术实现思路
本专利技术针对现有对于全景视频视角区域的预测准确率不够高的问题,提供一种基于多重卷积神经网络(CNN)的预测全景视频观看位置的方法、系统和终端,该方法通过全面考虑观看轨迹和全景视频帧的显著图以及全景视频的映射畸变问题,从而能够获得更高的视频预测准确率。为实现以上目的,本专利技术采用的技术方案是:根据本专利技术的第一方面,提供一种多重CNN网络预测全景视频观看位置的方法,所述方法包括:基于前一段时间的观看轨迹,运用神经网络方法预测出下一时刻的观看点;将全景视频帧映射成多个方向上的小视频帧,每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将所述显著图合并成整个的视频帧的显著图,再将所述整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图;将预测的所述观看点和所述全景视频帧显著图输入到全连接网络,得到最终的预测点即全景视频观看位置点。可选地,所述神经网络方法采用LSTM模型,读取前一秒的观看轨迹,将该轨迹输入到LSTM模型中预测得到下一时刻的观看点。可选地,所述将要预测时刻的全景视频帧映射成多个方向上的小视频帧,其中:将要预测时刻的全景视频帧进行正方体映射,得到上下前后左右六个方向上的小视频帧。可选地,所述每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,其中:将每个小视频帧通过已经训练好的VGG16网络得到相应的显著图。可选地,所述全连接网络为一个两层的全连接网络。本专利技术设计的基于多重CNN网络的预测全景视频观看位置的方法,首先运用LSTM网络得到相应时刻的预测点,在做全景视频帧显著图分析时,将人们的观看习惯和正方体映射的失真问题考虑进来,具体地,人们更习惯于观看全景视频的中间区域,所以将全景视频采用正方体映射映射成多个方向的小视频帧;在得到合并后的显著图时,会有相应的失真问题,所以再将其通过第二个CNN网络得到最终的显著图。根据本专利技术的第二方面,提供一种多重CNN网络预测全景视频观看位置的系统,包括:神经网络模块,该模块根据前一段时间的观看轨迹运用神经网络方法预测出下一时刻的观看点;映射模块,该模块将全景视频帧映射成多个方向上的小视频帧;显著图构建模块,该模块将每个所述小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将所述显著图合并成整个的视频帧的显著图,再将所述整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图;预测模块,该模块将所述神经网络模块预测的所述观看点和所述显著图构建模块得到的所述全景视频帧显著图输入到全连接网络,得到最终的预测点即全景视频观看位置点。可选地,所述映射模块,其中:将要预测时刻的全景视频帧进行正方体映射,得到上下前后左右六个方向上的小视频帧。可选地,所述预测模块,其中:所述全连接网络为一个两层的全连接网络。根据本专利技术的第三方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行所述的多重CNN网络预测全景视频观看位置的方法。根据本专利技术的第四方面,提供一种计算机可读介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时实现所述多重CNN网络预测全景视频观看位置的方法。与现有技术相比,本专利技术具有如下的有益效果:本专利技术上述方法及系统、终端,通过观看轨迹和全景视频帧的显著图以及全景视频的映射畸变问题,不仅考虑了全景视频映射时的失真问题,还考虑了如何处理失真问题,并将根据轨迹得到的预测点和视频帧的显著图结合起来得到最终的预测点,有效提高了预测的准确率。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术一实施例中进行全景视频视角预测的方法流程图;图2是本专利技术一实施例中原视频帧、映射后的小图、小图的显著图以及合并后的显著图;图3是本专利技术一实施例中合并后的显著图经过第二个CNN网络学习得到的显著图的对比;图4a、4b是本专利技术一实施例中1秒预测间隔的LSTM加与不加显著图后的准确率对比结果;图5为本专利技术一实施例中进行全景视频视角预测的系统框图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。本专利技术综合考虑观看全景视频时的观看轨迹和视频帧的显著图,并且考虑到了映射后的显著图和合并时的失真问题,运用多重CNN网络能够实现比传统方法高的预测准确率。具体的,参照图1所示,本专利技术一实施例中的基于多重CNN网络的预测全景视频观看位置的方法,包括如下步骤:S1,将前一段时间的观看轨迹输入到LSTM(LongShort-TimeMemory,长短时记忆)网络中,因为LSTM网络有记忆能力,对时间序列有较好的学习能力,所以通过该网络得到下一时刻的预测点。S2,将全景视频帧映射成多个方向上的小视频帧,每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将显著图合并成整个的视频帧的显著图;由于在观看全景视频时,一般视频上面和下面的区域关注比较少,较多关注的是中间区域,而每个区域都会有自己的显著图,所以将全景视频帧进行映射,得到上下前后左右6个方向上的映射图,并将这6幅映射图分别通过第一个CNN网络得到6幅相应的显著图,然后将这6幅显著图反映射成一整幅本文档来自技高网
...

【技术保护点】
1.一种多重CNN网络预测全景视频观看位置的方法,其特征在于:所述方法包括:基于前一段时间的观看轨迹,运用神经网络方法预测出下一时刻的观看点;将全景视频帧映射成多个方向上的小视频帧,每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将所述显著图合并成整个的视频帧的显著图,再将所述整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图;将预测的所述观看点和所述全景视频帧显著图输入到全连接网络,得到最终的预测点即全景视频观看位置点。

【技术特征摘要】
1.一种多重CNN网络预测全景视频观看位置的方法,其特征在于:所述方法包括:基于前一段时间的观看轨迹,运用神经网络方法预测出下一时刻的观看点;将全景视频帧映射成多个方向上的小视频帧,每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将所述显著图合并成整个的视频帧的显著图,再将所述整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图;将预测的所述观看点和所述全景视频帧显著图输入到全连接网络,得到最终的预测点即全景视频观看位置点。2.根据权利要求1所述的多重CNN网络预测全景视频观看位置的方法,其特征在于:所述神经网络方法采用LSTM模型,读取前一秒的观看轨迹,将该轨迹输入到LSTM模型中预测得到下一时刻的观看点。3.根据权利要求1所述的多重CNN网络预测全景视频观看位置的方法,其特征在于:所述将全景视频帧映射成多个方向上的小视频帧,其中:将要预测时刻的全景视频帧进行正方体映射,得到上下前后左右六个方向上的小视频帧。4.根据权利要求1所述的多重CNN网络预测全景视频观看位置的方法,其特征在于:所述每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,其中:将每个小视频帧通过已经训练好的VGG16网络得到相应的显著图。5.根据权利要求1所述的多重CNN网络预测全景视频观看位置的方法,其特征在于:所述全连接网络为一个两层的全连接网络。...

【专利技术属性】
技术研发人员:宋利李逍解蓉张文军
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1