当前位置: 首页 > 专利查询>北京大学专利>正文

基于视区跟踪的16K移动平台虚拟现实视频传输方法和系统技术方案

技术编号:28725133 阅读:20 留言:0更新日期:2021-06-06 05:38
本发明专利技术公开了一种基于视区跟踪的移动平台16K虚拟现实视频传输方法和系统。本发明专利技术将视频切分为可跟踪用户视区移动的动态切块,使用更少的像素覆盖用户的视区,从而显著节省带宽。本发明专利技术的主要贡献如下:(1)通过使用K

【技术实现步骤摘要】
基于视区跟踪的16K移动平台虚拟现实视频传输方法和系统


[0001]本专利技术属于网络流媒体传输
,涉及一种改善用户观看质量的虚拟现实视频空间切块算法,具体涉及一种基于视区跟踪的16K移动平台虚拟现实视频传输方法和系统。

技术介绍

[0002]虚拟现实(VR)逐渐在移动平台兴起。据调查,2021年VR用户将达到5500万,移动VR平台将占VR整体平台的80%。最近,华为推出了最新的VR头盔,VR glass。与传统的高端有线VR头盔相比,它的目标是在移动平台下,不受有线(如HDMI)的限制,实现轻量、移动和高质量的用户体验。因此,有理由相信,移动VR将成为未来的主流。
[0003]为了创造更好的用户体验,16K VR视频(15360x 7680像素)已经成为VR视频传输的一项需求。16K VR视频在用户视野(Field of View,简称FoV)内提供每角度40个像素,相当于传统桌面屏幕上显示的非VR HD(1920x1080像素)视频。
[0004]然而,16K VR频流需要更高的网络带宽和客户端解码能力。(1)传输一个经过良好压缩的16K VR视频仍然需要200Mbps到1.65Gbps的带宽,目前的4G网络平均带宽只有40Mbps。即使采用最先进的5G网络,带宽可以达到1Gbps,16K VR视频的传输仍然存在巨大的阻碍。(2)最先进的移动平台只能以每秒30帧的速度解码8K(7680x3840像素)的视频。16K VR视频会导致客户端视频解码严重停滞,甚至使播放器完全崩溃。
[0005]视区驱动的VR视频传输是最常见的解决方案,它试图通过仅传输用户的视区内部视频内容来降低对VR视频传输的带宽需求。VR视频首先通过视频投影编码为传统平面视频。然后视频在时间维度上被分割成块(持续时间通常为1

5秒),被称为视频时间片,每个视频时间切片在空间维度被分割成固定大小网格状的块,称为视频空间切块。最后基于视区预测算法,只需对与用户FoV相交的视频块进行传输,从而大大降低了VR视频的的计算和带宽消耗。在一个16K的VR视频中,用户的FoV分辨率只有4K左右(4320x4320像素),所以理论上这些解决方案可以在移动平台上实现16K VR视频的传输。
[0006]然而,现有的VR视频传输的设计思路是基于静态视频切块的视区覆盖。传统的做法中,视频空间切块在一个视频时间片以内的空间位置是固定不动的,在一个视频时间片以内,即便一个视频空间切块只被用户观看了一帧,也需要将整个视频空间切块传输,这会导致16K VR视频传输中严重的带宽消耗和解码开销。与所有现有的解决方案不同,本专利技术以FoV跟踪方式传输VR视频。VR视频块被分割成动态空间切块,其空间位置始终跟踪用户视区轨迹的移动,并以帧粒度来裁剪视区。传统静态视频切块导致严重的像素浪费。相比之下,基于视区跟踪解决方案总是将用户视野内的视频内容传送到客户端,像素浪费极低。
[0007]然而,实际中实现基于视区跟踪的动态视频切块存在以下三个核心挑战。
[0008]首先,在实际视频中,每一段视频可能被成千上万(甚至数百万)的用户观看,不同的用户有不同的视区轨迹。此外,进入用户的视野轨迹可以不同于任何现有用户。因此,在计算和存储方面,为每个可能的FoV轨迹编码一个唯一的动态空间切块是不切实际的。其
次,现有的投影方法,如等矩形投影(ERP)和立方体投影(CMP)等,都是将视频内容投影到一个固定的投影中心。距离投影中心较远的像素点投影后会出现较大的畸变,从而增加像素数,降低编码效率。我们称之为投影扭曲。当视区离投影中心较远时,采用现有的投影方法直接对移动台进行编码,会大幅度降低编码效率提升解码开销。最后,在所有的VR视频传输方法中,视频块需要在用户实际观看之前通过客户端逻辑进行预取,因此用户视区预测是不可避免的。为了保证动态空间切块能够跟踪用户未来的视场运动,对视场的预测需要极高的精度。但目前的预测算法并没有提供这种性能。
[0009]为了解决这三个核心挑战,本专利技术提出了VR视频传输系统,它以视区跟踪的方式大幅度节省带宽消耗,提升编码、解码效率。

技术实现思路

[0010]本专利技术的目的是以视区跟踪的方式优化VR视频传输和编解码,搭建移动平台的16K VR传输和播放系统。本专利技术分别从VR视频切块、投影和传输策略三个方面提出解决方案。
[0011]为了实现以上目的,本专利技术采用的技术方案如下:
[0012]一种基于视区跟踪的16K移动平台虚拟现实视频传输方法,包括以下步骤:
[0013]对原始视频进行时间维度上的切片,获得视频时间切片;
[0014]统计不同视频时间切片上的用户观看轨迹,将其输出为观看序列向量;
[0015]对不同的观看序列向量进行聚类;
[0016]对于聚类结果中的用户聚簇n,对一个视频时间切片内的视频逐帧取所有用户视区的并集,设该并集为H;
[0017]对于用户聚簇n,根据聚簇的视区轨迹和像素的观看热度计算投影中心C
n

[0018]对于用户聚簇n,按照设定的网格粒度统计区域H内每个小网格区域的像素的观看热度,并选取热度阈值L
n
,像素的观看热度高于L
n
的区域逐帧编码为动态视频切块,像素的观看热度低于等于L
n
的区域采用静态切块方式进行切块;
[0019]建立视频切块最优化方程,求解最优的热度阈值L
n
和静态网格划分粒度;
[0020]按照计算得出的投影中心C
n
、最优的热度阈值L
n
和静态网格划分粒度,进行视频投影和编码,并存储在服务器端;
[0021]在客户端进行用户视区预测,根据视区预测结果建立视频传输优化方程,求解得出当前应当传输的视频片段,并从服务器端对该视频片段进行下载。
[0022]进一步地,所述对不同的观看序列向量进行聚类,包括:使用欧氏距离作为度量不同观看序列向量相似性的标准,使用K

medoids聚类算法对不同的观看序列向量进行聚类。
[0023]进一步地,对于一共有f帧和q个像素的区域,所述投影中心C
n
采用下式计算:
[0024][0025]其中,表示k帧中l像素的观看热度,像素的观看热度是指每个像素被用户的看过的次数;表示k帧中l像素的三维球体坐标。
[0026]进一步地,所述视频切块最优化方程为:
[0027]minimize:
[0028]subject to:(X,Y)∈{(6,12),(12,24),(15,30)}
[0029]L
n
∈{0%,20%,40%,...,100%} 1≤n≤K
[0030]其中,minimize表示最小化,F
u
为码率映射函数;subject to表示受限制于;n表示用户聚类的簇数,K表示热度阈值的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视区跟踪的16K移动平台虚拟现实视频传输方法,其特征在于,包括以下步骤:对原始视频进行时间维度上的切片,获得视频时间切片;统计不同视频时间切片上的用户观看轨迹,将其输出为观看序列向量;对不同的观看序列向量进行聚类;对于聚类结果中的用户聚簇n,对一个视频时间切片内的视频逐帧取所有用户视区的并集,设该并集为H;对于用户聚簇n,根据聚簇的视区轨迹和像素的观看热度计算投影中心C
n
;对于用户聚簇n,按照设定的网格粒度统计区域H内每个小网格区域的像素的观看热度,并选取热度阈值L
n
,像素的观看热度高于L
n
的区域逐帧编码为动态视频切块,像素的观看热度低于等于L
n
的区域采用静态切块方式进行切块;建立视频切块最优化方程,求解最优的热度阈值L
n
和静态网格划分粒度;按照计算得出的投影中心C
n
、最优的热度阈值L
n
和静态网格划分粒度,进行视频投影和编码,并存储在服务器端;在客户端进行用户视区预测,根据视区预测结果建立视频传输优化方程,求解得出当前应当传输的视频片段,并从服务器端对该视频片段进行下载。2.根据权利要求1所述的方法,其特征在于,所述对不同的观看序列向量进行聚类,包括:使用欧氏距离作为度量不同观看序列向量相似性的标准,使用K

medoids聚类算法对不同的观看序列向量进行聚类。3.根据权利要求1所述的方法,其特征在于,对于一共有f帧和q个像素的区域,所述投影中心C
n
采用下式计算:其中,表示k帧中l像素的观看热度,像素的观看热度是指每个像素被用户的看过的次数;表示k帧中l像素的三维球体坐标。4.根据权利要求1所述的方法,其特征在于,所述视频切块最优化方程为:subject to(X,Y)∈{(6,12),(12,24),(15,30)}L
n
∈{0%,20%,40%,...,100%}1≤n≤K其中,minimize表示最小化,F
u
为码率映射函数;subject to表示受限制于;n表示用户聚类的簇数,K表示热度阈值的数量,L1~L
K
表示K种不同的热度阈值,u表示当前用户集合U下的一个用户,X,Y表示静态网格划分粒度。5.根据权利要求4所述的方法,其特征在于,所述视频传输优化方程为:maximize;Y(A

)subject to:B(A

)≤S
其中,Y表示由视频切块到视频客观质量的转换函数,A

表示包含于所有可用于视频传输的视频切块A的任意子集,B表示由视频切块到对应视频码率的转换函数,S表示当前的最大提供带宽,P表示用户视区内包含的视频像素,E表示由视频切块到视频像素的转换函数。6.根据权利要求4所述的方法,其特征在于,所述视频传输优化方程为...

【专利技术属性】
技术研发人员:张行功郑程元尹谨瑜关宇郭宗明
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1