System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于DASH的全景视频传输方法技术_技高网
当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于DASH的全景视频传输方法技术

技术编号:40142385 阅读:11 留言:0更新日期:2024-01-23 23:49
本发明专利技术提供一种基于DASH的全景视频传输方法,涉及视频传输技术领域。该方法涉及全景视频QoE的确定、码率动态自适应选择和视口预测三部分;首先将全景视频在空间维度上分割固定尺寸的图块,并对每个视频图块做相应地质量分级;并将全景视频分成具有相同持续时间的视频帧序列块;然后确定对用户体验影响最大的参数,进而确定全景视频QoE的目标函数;使用强化学习的Asynchronous Advantage Actor‑Critic框架对全景视频的码率进行自适应选择;采用基于LSTM‑Seq2Seq的视口预测模型预测用户的视口。该方法设计了强化学习智能体在全景视频场景下的状态、动作以及奖励值函数,并通过长短期记忆网络方法预测用户视口改进了预测视口的准确性,进一步提高了用户的观看体验。

【技术实现步骤摘要】

本专利技术涉及视频传输,尤其涉及一种基于dash的全景视频传输方法。


技术介绍

1、虚拟现实技术随着智能计算和高清显示技术的进步,也在迈着稳健的步伐加速前进,用户对全景视频的兴趣越发浓烈,观看需求也日益增多。全景视频作为虚拟现实技术的关键应用之一,在流媒体传输领域已经有了举足轻重的地位。

2、全景视频因其相较于传统视频具有更高的码率和分辨率,所需的带宽要求也更为苛刻,为了保证用户的良好体验,通过基于视点的自适应传输方案,对全景视频在空间维度上划分成相同大小的图块(tile),并对每个视频块做相应地质量分级,以便在传输时针对不同的环境请求不同码率的视频。

3、现有的技术采用分块传输的编码并尝试根据用户视口调节下载视频的分辨率。通过将视频块编码成两种不同的分辨率,其中视频帧的构建过程分别集成了视口内的高码率视频块与视口外的低码率视频块。

4、基于视点的自适应传输方案需要准确的视口预测算法,由于在观看视频的时候,人的头部运动是随机的,因此视口预测存在误差,因此也需要针对视口预测的误差做出相应的处理。同时请求当前所需要的视频块分辨率时,仅仅单纯的考虑到带宽的情况,没有针对播放环境中的其他因素进行考虑,因此所做出的分辨率决策并不是当前最优的。


技术实现思路

1、本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于dash的全景视频传输方法,实现全景视频的传输。

2、为解决上述技术问题,本专利技术所采取的技术方案是:一种基于dash的全景视频传输方法,包括全景视频qoe的确定、码率动态自适应选择和视口预测三部分;qoe是作为评判视频观看效果的评分,视口预测是确定传输视频的哪些视频图块,码率动态自适应以qoe作为参考确定传输视频图块的码率大小;

3、具体包括以下步骤:

4、步骤1:将全景视频在时刻t的空间维度上分割成具有i行和j列的固定尺寸的图块,并对每个视频图块做相应地质量分级;设定(i,j)表示图块中第i行和第j列的位置;通过来自候选速率集的特定比特率来分配和编码视频图块;

5、步骤2:将全景视频分成具有相同持续时间的视频帧序列块,视频帧序列块的持续时间表示为t;视频帧序列块被索引为从1到c,其中,c表示全景视频中视频帧序列块的总数量;

6、步骤3:确定全景视频qoe的目标函数;

7、确定对用户体验影响最大的参数,具体包括:

8、(1)确定两个视频帧序列块之间的平均视口质量[mb],如下公式所示:

9、

10、其中,表示第x个和y个视频帧序列块之间的平均视口质量,f(c)是视口区间内的总码率,vij(c)表示第c个视频帧序列块的位置(i,j)是否在视口内;

11、(2)确定视频图块重新缓冲时间:

12、当某个视频图块的下载时间大于缓冲区占用率时,客户端需要对该视频图块重新缓冲,两个视频帧序列块之间所有视频图块的总重新缓冲时间表示为:

13、

14、其中,表示第x个和y个视频帧序列块之间所有视频图块的总重新缓冲时间,z(c)为第c个视频帧序列块的比特数,nc为第c个视频帧序列块的平均下载速度,bc为请求第c个视频帧序列块时缓冲区的占用率,ρ为下载速率与播放速率比;

15、(3)确定两个视频帧序列块之间的平均视口码率变化:

16、使用平均视口码率变化对视口内容码率的变化进行衡量,如下公式所示:

17、

18、其中,表示第x个和y个视频帧序列块之间的平均视口码率变化;

19、则全景视频qoe的目标函数为:

20、

21、其中,μ,τ均为非负加权超参数,μ,τ的确定由实际需求确定;

22、步骤4:使用强化学习的asynchronous advantage actor-critic框架对全景视频的码率进行自适应选择;通过训练actor-critic神经网络模型,根据客户端视频播放器收集的环境信息为视角区域fov的视频切片选择最优的码率;针对全景视频,在actor-critic神经网络模型增加一层全连接层来提取更深层次的特征;模型输入中加入用户的观看视角轨迹,根据视角轨迹获取当前视频切片的大小;加入在用户视角发生变化时的缓冲区处理机制;还加入预知下一视角信息后的码率选择优化处理过程;

23、将当前视频帧区域划分为4x4共16个视频图块,选择其中的9块下载高码率质量图块,其余部分选择最低码率图块;目标是根据当前的网络状况,自适应地选择最优的码率;

24、actor-critic神经网络模型包括actor网络和critic网络;agent接收到状态st后,会根据输入信息采取动作at,选择下一个视频图块的码率;agent对码率的选择基于网络的策略π(st,at);状态st中下载时间、下载速度在计算时,需要用到网络吞吐量,网络吞吐量和状态st中的播放器缓冲区长度都是连续的实数,需要采用函数逼近的方法完成回归,确定下个时刻的网络吞吐量;用一个神经网络nn代表动作-值函数;利用nn,将策略π(st,at)转化为πθ(st,at),并定义q(s,a;θ)为一个带有参数θ的近似动作-值函数,θ的更新采用各种强化学习算法;

25、critic网络与actor网络使用相同的输入和相似的网络结构,只是输出奖励的最后一层是线性linear连接层,输出v(st;θv)为状态-值函数;

26、actor-critic神经网络的输入st是一个六维向量c,包括中心视口区域比特率bc,t,t时刻客户端的缓存长度lt,上一时刻视频帧序列块的下载速度vt-1,上一时刻视频帧序列块的下载时间τt-1,n种码率下,下一时刻视频中视口中心区域的九个图块总码率nn,剩余视频帧序列块的个数ct;在actor-critic神经网络结构中,πθ(st,at)代表了actor网络做出的策略,是一个n维长度的向量,包含了选择每种码率的可能性;在进行自适应选择时,选择所有可能性最高的码率;在每个agent中,播放器下载切片后的各个状态被输入actor网络,输出各个动作的概率,然后将选择后的码率输入环境env中进行播放器的仿真下载,下载后的状态再次输入神经网络进行训练,并计算本次选择的奖励来调节神经网络的参数;

27、步骤5:采用基于lstm-seq2seq的视口预测模型预测用户的视口;

28、采用基于lstm-seq2seq的视口预测模型进行视口预测;视口预测模型中的seq2seq模型为编码器-解码器模型;使用长短期记忆网络lstm将源序列编码为单个向量;将这个向量称为上下文向量,将此过程称为编码器过程;将上下文向量看作是整个输入轨迹的特征表示;然后,该向量由第二个lstm解码,该lstm通过一次生成一个预测结果来学习输出目标轨迹,将此过程称为解码器过程;

29、输入视口序列通过预处理层输入到编码器;在每个时间步,编码器l本文档来自技高网...

【技术保护点】

1.一种基于DASH的全景视频传输方法,包括全景视频QoE的确定、码率动态自适应选择和视口预测三部分,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于DASH的全景视频传输方法,其特征在于:所述步骤3中对用户体验影响最大的参数具体包括:

3.根据权利要求2所述的一种基于DASH的全景视频传输方法,其特征在于:所述两个视频帧序列块之间的平均视口质量如下公式所示:

4.根据权利要求3所述的一种基于DASH的全景视频传输方法,其特征在于:所述视频图块重新缓冲时间如下公式所示:

5.根据权利要求2所述的一种基于DASH的全景视频传输方法,其特征在于:所述两个视频帧序列块之间的平均视口码率变化如下公式所示:

6.根据权利要求1所述的一种基于DASH的全景视频传输方法,其特征在于:所述步骤4的具体方法为:

7.根据权利要求6所述的一种基于DASH的全景视频传输方法,其特征在于:所述Actor-Critic神经网络模型包括Actor网络和Critic网络;Agent接收到状态st后,会根据输入信息采取动作at,选择下一个视频图块的码率;Agent对码率的选择基于网络的策略π(st,at);状态st中下载时间、下载速度在计算时,需要用到网络吞吐量,网络吞吐量和状态st中的播放器缓冲区长度都是连续的实数,需要采用函数逼近的方法完成回归,确定下个时刻的网络吞吐量;用一个神经网络NN代表动作-值函数;利用NN,将策略π(st,at)转化为πθ(st,at),并定义Q(s,a;θ)为一个带有参数θ的近似动作-值函数,θ的更新采用各种强化学习算法;

8.根据权利要求7所述的一种基于DASH的全景视频传输方法,其特征在于:所述视口预测模型中的Seq2Seq模型为编码器-解码器模型;使用长短期记忆网络LSTM将源序列编码为单个向量;将这个向量称为上下文向量,将此过程称为编码器过程;将上下文向量看作是整个输入轨迹的特征表示;然后,该向量由第二个LSTM解码,该LSTM通过一次生成一个预测结果来学习输出目标轨迹,将此过程称为解码器过程;

9.根据权利要求8所述的一种基于DASH的全景视频传输方法,其特征在于:所述视口预测模型在训练或测试时,结合LR方法,在历史视口轨迹少于设定值的前期中使用LR算法进行视口预测;当历史视口累计到可以达到编码的输入长度要求时,转换成LSTM-Seq2Seq模型进行预测;因此,在基于Seq2Seq-LSTM的视口预测模型中,将编码器的时间步长和解码器的时间步长设置为固定值;一旦得到了预测的目标轨迹就将其与实际的目标轨迹进行比较,以计算模型的损失;然后,使用这个损失来更新模型中的所有参数。

...

【技术特征摘要】

1.一种基于dash的全景视频传输方法,包括全景视频qoe的确定、码率动态自适应选择和视口预测三部分,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于dash的全景视频传输方法,其特征在于:所述步骤3中对用户体验影响最大的参数具体包括:

3.根据权利要求2所述的一种基于dash的全景视频传输方法,其特征在于:所述两个视频帧序列块之间的平均视口质量如下公式所示:

4.根据权利要求3所述的一种基于dash的全景视频传输方法,其特征在于:所述视频图块重新缓冲时间如下公式所示:

5.根据权利要求2所述的一种基于dash的全景视频传输方法,其特征在于:所述两个视频帧序列块之间的平均视口码率变化如下公式所示:

6.根据权利要求1所述的一种基于dash的全景视频传输方法,其特征在于:所述步骤4的具体方法为:

7.根据权利要求6所述的一种基于dash的全景视频传输方法,其特征在于:所述actor-critic神经网络模型包括actor网络和critic网络;agent接收到状态st后,会根据输入信息采取动作at,选择下一个视频图块的码率;agent对码率的选择基于网络的策略π(st,at);状态st中下载时间、下载速度在计算时,需要用到网络吞吐量,网络吞吐量和状态st中的播放器缓...

【专利技术属性】
技术研发人员:李婕范志明孙立明倪石建王一凡于佳林
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1