一种基于神经网络的细粒度视频流自适应调节系统及方法技术方案

技术编号：40071840 阅读：9 留言：0更新日期：2024-01-17 00:17

本发明专利技术涉及视频流播放调节领域，公开了一种基于神经网络的细粒度视频流自适应调节系统及方法，系统包括六个独立的神经网络和一个经验缓冲区；神经网络包括策略网络、目标策略网络、两个评价网络和两个目标评价网络；策略网络即ABR模型，用于从环境中获取状态，并输出动作，这些作为经验数据被保存到经验缓冲区中；评价网络用于评价网络用于评估策略网络做出的动作的价值；目标策略网络用于稳定训练性能；目标评价网络用于在训练过程更新评价网络。本发明专利技术通过新的基于学习的训练方法，使得训练出的ABR模型能够进行细粒度的比特率适应和长期决策规划，可以在整个视频会话中保持稳定的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频流播放调节领域，特别涉及一种基于神经网络的细粒度视频流自适应调节系统及方法。

技术介绍

1、近年来，移动视频流媒体技术经历了快速的发展，现已成为互联网上的主要应用之一。cisco报告显示，从2017到2022年，全球流媒体数据流量增长了15倍，到2022年底，已占到互联网总流量的82%。但是由于无线网络信号的不稳定性，移动网络带宽时常发生较大波动，这对视频传输造成了巨大挑战。因此，流媒体服务商重视自适应比特率（abr）流系统的开发，以避免带宽波动造成的性能损失。abr系统基于dash协议，其核心是智能的abr模型，根据历史环境测量结果（如网络吞吐量、缓冲区占用等）动态调整视频画质（比特率），最终的目标是最大化用户体验质量（qoe）。

2、我们应用了大规模的移动网络跟踪数据来评估当前业界比较先进的abr系统的性能。结果发现，实际达到的qoe远非最优，尤其是在网络条件较差且带宽剧烈波动的情况下。通过进一步的调查发现，此问题主要源于在有限的视频编码选择下进行粗粒度的比特率决策，比特率未能良好的匹配带宽波动，导致qoe显著下降。

3、解决上述问题的直观方法是通过提供更多的候选比特率版本，执行细粒度的比特率自适应。然而，将这种方法应用于现有的abr模型，结果不尽人意。具体来说，对于启发式算法，例如psqa，随着候选比特率版本数量的增加，求解qoe最大化问题的计算复杂性呈指数级增长，这极大地增加了abr决策所需的时间，从而导致更多的播放卡顿；对于基于机器学习的算法，例如pensieve，在神经网络的

技术实现思路

1、为解决上述技术问题，本专利技术提供了一种基于神经网络的细粒度视频流自适应调节系统及方法，通过基于连续动作控制的深度强化学习训练方法，训练出的abr模型能够进行细粒度的比特率自适应并进行长远决策规划，使整个视频会话实现高用户体验质量并保持不同网络条件下的高鲁棒性。

2、为达到上述目的，本专利技术的技术方案如下：

3、一种基于神经网络的细粒度视频流自适应调节系统，该系统即beta系统，包括六个独立的神经网络和一个经验缓冲区；神经网络包括策略网络、目标策略网络、两个评价网络和两个目标评价网络；在这六个网络中，只有策略网络执行自适应比特率决策，其余五个网络都是训练辅助工具；

4、所述策略网络即abr模型，用于从环境中获取状态，并输出动作，这些作为经验数据被保存到经验缓冲区中；

5、所述评价网络的输入包括环境状态和策略网络输出的动作，输出q值，用于评价网络用于评估策略网络做出的动作的价值，采用两个评价网络用于避免对动作价值的高估；

6、所述目标策略网络的输入为环境状态，输出目标动作，用于稳定训练性能；

7、所述目标评价网络的输入包括环境状态和目标策略网络输出的目标动作，其输出用于计算目标q值，用于在训练过程更新评价网络；

8、所述经验缓冲区用于存放经验数据。

9、上述方案中，所述策略网络包括输入层、隐藏层和输出层；所述输入层的输入包含五个环境状态，用以量化网络条件和流媒体上下文，分别为带宽、视频块下载时间、上一个选择的比特率、缓冲区大小和剩余视频块数量；所述隐藏层的第一层由两个128个神经元的卷积层和三个128个神经元的稠密层构成，用于从输入层接收所有环境状态，其中，带宽和视频块下载时间分别传递到两个卷积层，其余三个环境状态分别传递到三个稠密层；然后，隐藏层第一层的输出将被输入到隐藏层第二层，其为一个由256个神经元组成的稠密层；最后，由一个采用tanh激活函数的稠密层构成的输出层输出动作，表示为at，其为连续值，范围从-1到+1，其中，t为视频块序列号。

10、上述方案中，所述评价网络包括输入层、隐藏层和输出层，所述输入层的输入除了包含与策略网络相同的五个环境状态外，还有一个额外的输入，即由策略网络输出的动作at；所述隐藏层的第一层包含两个128个神经元的卷积层和四个128个神经元的稠密层，用于从输入层接收所有环境状态和动作，其中，带宽和视频块下载时间分别传递到两个卷积层，其余三个环境状态和动作分别传递到四个稠密层；然后，他们的输出被输入到隐藏层的第二层，一个由256个神经元构成的稠密层；最后，由一个线性的稠密层构成的输出层输出q值，用于评价策略网络所作动作的价值，以在训练中促进神经网络更新。

11、一种基于神经网络的细粒度视频流自适应调节方法，采用如上所述的自适应调节系统，包括如下步骤：

12、步骤1，由beta系统对abr模型进行训练；

13、步骤2，将训练好的模型部署在服务器上；

14、步骤3，开始时对用户请求的第一个视频块选择一个默认比特率，并将此视频块通过网络传送给用户播放器，用户播放器播放此视频块；

15、步骤4，传输完成后，收集环境中的状态信息，形成环境状态；

16、步骤5，将环境状态输入给abr模型，模型根据状态输出动作at，并将该动作映射为针对下一个视频块的比特率；

17、步骤6，服务器根据模型决策的比特率，将原始视频在线转码成相应比特率的视频块，随后通过网络将其传送给用户播放器播放，再返回步骤4。

18、上述方案中，步骤1中，abr模型的训练过程如下：

19、（1）经验积累与随机经验采样：

20、训练前，系统对所有超参数进行初始化，在训练中的每个轮次，对于视频会话中的视频块t，策略网络首先根据环境状态st输出动作at，然后视频块t在一个虚拟网络环境中进行服务器端到用户端的传输；传输完成后，系统收集奖励rt和视频结束信号dt，组成一个四元组(st, at, rt, dt,)，存储在经验缓冲区d中；随后，系统从经验缓冲区d中随机采样一小批次经验用于后续计算过程；

21、（2）计算目标q值和q值：

22、目标q值计算公式如下：

23、；

24、其中，为目标q值，γ是折扣因子，rt’+k是第k步的奖励，qtar1和qtar2分别是两个目标评价网络输出的第n步q值。

25、关于q值，需要将状态st和动作at同时输入到两个评价网络中，分别得到两个评价网络的输出q1和q2，即评价网络对当前状态st下策略网络做出动作at的价值分数。

26、（3）更新评价网络：

27、基于qtar 、q1和q2，通过计算均方时序差分误差来更新两个评价网络；通过调整两个评价网络的神经元权重θi=1,2，使评价网络输出的q值接近目标q；本文档来自技高网...

【技术保护点】

1.一种基于神经网络的细粒度视频流自适应调节系统，其特征在于，该系统即BETA系统，包括六个独立的神经网络和一个经验缓冲区；神经网络包括策略网络、目标策略网络、两个评价网络和两个目标评价网络；在这六个网络中，只有策略网络执行自适应比特率决策，其余五个网络都是训练辅助工具；

2.根据权利要求1所述的一种基于神经网络的细粒度视频流自适应调节系统，其特征在于，所述策略网络包括输入层、隐藏层和输出层；所述输入层的输入包含五个环境状态，用以量化网络条件和流媒体上下文，分别为带宽、视频块下载时间、上一个选择的比特率、缓冲区大小和剩余视频块数量；所述隐藏层的第一层由两个128个神经元的卷积层和三个128个神经元的稠密层构成，用于从输入层接收所有环境状态，其中，带宽和视频块下载时间分别传递到两个卷积层，其余三个环境状态分别传递到三个稠密层；然后，隐藏层第一层的输出将被输入到隐藏层第二层，其为一个由256个神经元组成的稠密层；最后，由一个采用Tanh激活函数的稠密层构成的输出层输出动作，表示为at，其为连续值，范围从-1到+1，其中，t为视频块序列号。

3.根据权利要求2所

4.一种基于神经网络的细粒度视频流自适应调节方法，采用如权利要求1所述的自适应调节系统，其特征在于，包括如下步骤：

5.根据权利要求4所述的一种基于神经网络的细粒度视频流自适应调节方法，其特征在于，步骤1中，ABR模型的训练过程如下：

6.根据权利要求5所述的一种基于神经网络的细粒度视频流自适应调节方法，其特征在于，系统从经验缓冲区D中随机采样一小批次经验，记为Ω，其中包含j个元组序列，每个序列中有n个连续的元组：

7.根据权利要求5所述的一种基于神经网络的细粒度视频流自适应调节方法，其特征在于，更新评价网络时，系统通过执行确定性策略梯度来实现这一步，以最小化以下损失函数：

8.根据权利要求4所述的一种基于神经网络的细粒度视频流自适应调节方法，其特征在于，步骤4中，从环境中收集的状态信息包括：带宽、视频块下载时间、上一个选择的比特率、缓冲区大小和剩余视频块数量。

9.根据权利要求4所述的一种基于神经网络的细粒度视频流自适应调节方法，其特征在于，步骤5中，为了将模型输出动作at映射到可用的编码比特率范围内，即[amin, amax]，定义了一个线性动作映射策略：

...

【技术特征摘要】

1.一种基于神经网络的细粒度视频流自适应调节系统，其特征在于，该系统即beta系统，包括六个独立的神经网络和一个经验缓冲区；神经网络包括策略网络、目标策略网络、两个评价网络和两个目标评价网络；在这六个网络中，只有策略网络执行自适应比特率决策，其余五个网络都是训练辅助工具；

2.根据权利要求1所述的一种基于神经网络的细粒度视频流自适应调节系统，其特征在于，所述策略网络包括输入层、隐藏层和输出层；所述输入层的输入包含五个环境状态，用以量化网络条件和流媒体上下文，分别为带宽、视频块下载时间、上一个选择的比特率、缓冲区大小和剩余视频块数量；所述隐藏层的第一层由两个128个神经元的卷积层和三个128个神经元的稠密层构成，用于从输入层接收所有环境状态，其中，带宽和视频块下载时间分别传递到两个卷积层，其余三个环境状态分别传递到三个稠密层；然后，隐藏层第一层的输出将被输入到隐藏层第二层，其为一个由256个神经元组成的稠密层；最后，由一个采用tanh激活函数的稠密层构成的输出层输出动作，表示为at，其为连续值，范围从-1到+1，其中，t为视频块序列号。

3.根据权利要求2所述的一种基于神经网络的细粒度视频流自适应调节系统，其特征在于，所述评价网络包括输入层、隐藏层和输出层，所述输入层的输入除了包含与策略网络相同的五个环境状态外，还有一个额外的输入，即由策略网络输出的动作at；所述隐藏层的第一层包含两个128个神经元的卷积层和四个128个神经元的稠密层，用于从输入层接收所有环境状态和动作，其中...

【专利技术属性】
技术研发人员：张广辉，王子铭，郭婧，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人