基于上下文强化学习的码率自适应方法及控制器构建方法技术

技术编号：40652309 阅读：5 留言：0更新日期：2024-03-13 21:29

本发明专利技术提供一种基于上下文强化学习的码率自适应方法及控制器构建方法，包括：构建以网络吞吐上下文信息为输入、当前网络动态隐变量表示为输出的网络动态编码器；构建以用户端信息和所述当前网络动态隐变量表示为输入、当前视频切片的最优码率版本为输出的码率自适应元策略网络；对所述网络动态编码器和码率自适应元策略网络组成的全局模型通过行为克隆方法进行预训练、利用基于互信息正则化的近端策略优化方法进行再训练；获得最优神经网络参数，基于异构的用户端，对神经网络参数微调，获得码率自适应控制器。本发明专利技术能够快速自适应异构用户的本地网络带宽环境，从而最大化用户的整体观看体验质量，提高了网络视频流传输的带宽利用率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频通信，特别涉及一种基于上下文强化学习的码率自适应方法及控制器构建方法。

技术介绍

1、目前，随着网络在线观看视频的需求不断增长，视频流媒体传输已经成为了整个通信网络中不可忽略的流量组成部分。而用户在线观看流媒体视频时，不同用户的网络环境会导致不同用户的整体观看体验不同，包括不同的观看画面质量、卡顿和延迟。

2、动态流媒体码率自适应技术是为了最大化用户在线观看视频的体验质量而提出的一种网络服务优化方案。具体的，在视频服务器端，视频服务提供商将给定视频切分为固定播放长度的视频切片序列，每一个视频切片编码多个不同码率的版本。在用户端，流媒体播放器通过观测用户网络环境及播放器视频缓冲区状况通过码率自适应分配方法以最大化用户观看该视频时的总体体验质量为目标，为每一个视频切片选择一个最佳的码率版本进行下载和播放。由于网络吞吐量动态变化、难以预测，优化变量维度高且复杂，因此码率自适应分配问题是一个np-hard问题，无法在多项式时间内取得最优解。此外，现有的深度神经网络的码率自适应方法尽管可以在多项式时间内以较小的计算开销进行最优推断，但是这些方法只能对于与训练样本数据分布相似的环境数据下获得比较好的效果，而不能使用异构的用户网络条件，因此解决码率自适应方法的泛化问题是一个码率自适应方法面临的一大挑战。

技术实现思路

1、针对现有技术中的缺陷，本专利技术的目的是提供一种基于上下文强化学习的码率自适应方法及控制器构建方法。

2、根据本专利技术的一个方面，提

3、构建以网络吞吐上下文信息为输入、当前网络动态隐变量表示为输出的网络动态编码器；

4、构建以用户端信息和所述当前网络动态隐变量表示为输入、当前视频切片的最优码率版本为输出的码率自适应元策略网络；

5、对所述网络动态编码器和码率自适应元策略网络组成的全局模型通过行为克隆方法进行预训练，利用基于互信息正则化的近端策略优化方法进行再训练，获得最优的所述网络动态编码器和元策略网络神经网络参数，基于异构的用户端，对所述神经网络参数微调，获得码率自适应控制器。

6、优选地，用户端请求下载第k个视频切片时，所述用户端信息表示为：

7、

8、其中：ck-1为下载第k-1个视频切片期间记录的平均网络吞吐量；dk-1为下载第k-1个视频切片期间记录的平均下载时间；为第k个视频切片所有码率版本的流文件大小信息；bk-1为用户端的当前播放器缓冲区大小；rk-1为所下载的第k-1个视频切片的码率版本；此外，将从下载第k-p个视频切片到下载第k-1个视频切片期间记录的平均下载时间和平均网络吞吐量定义网络上下文信息c＝{(ck-p，dk-p)，…，(ck-1，dk-1)}。

9、优选地，所述网络动态编码器由输入层、中间层和输出层共三层神经网络以串联方式依次连接构成，其中：

10、所述输入层为激活函数为leakyrelu函数的一维卷积神经网络，所述中间层为激活函数为leakyrelu函数的全连接神经网络，所述输出层为两个无激活函数的全连接神经网络，输出维度均为nz，神经网络参数统一表示为φ；

11、所述输出层有两个输出，分别代表隐变量表示概率分布的均值μk和方差σk，其中当前网络动态隐变量表示zk从μk、σk构建的高斯分布中进行一次采样获取，即c为上下文信息，z和zk一致，表示当前网络动态隐变量。

12、优选地，所述元策略网络πθ(r|s，z)由输入层、中间层和输出层共三层神经网络以串联方式依次连接构成，其中：

13、所述输入层包括六个并行的神经网络单元：激活函数为leakyrelu函数的用于处理所述用户端信息的的一维卷积神经网络，激活函数为leakyrelu函数的用于分别处理所述用户端信息的{ck-1，dk-1，bk-1，rk-1，zk}的五个全连接神经网络，同时，以上网络的输出结果经过拼接后形成一个张量，作为中间层的输入；所述中间层是激活函数为leakyrelu函数的全连接神经网络；所述输出层是一个激活函数为softmax函数的全连接神经网络，输出维度为m，神经网络参数统一表示为θ；

14、所述输出层的输出为{πθ(r1|s，z)，…，πθ(rm|s，z)}，其中πθ(ri|s，z)表示为第i个码率版本是最优码率版本的概率，m为可供下载的码率版本个数，通过贪婪策略选择最优码率版本此处，s和sk一致，表示客户端信息。

15、优选地，所述通过行为克隆方法进行预训练，包括：

16、定义行为克隆损失函数：

17、

18、为给定用户状态信息s条件下随机变量z和随机变量r的条件互信息，λ为权重系数，πe(r|s)为码率自适应专家策略，为专家策略选择的码率版本；

19、定义kl散度损失函数

20、

21、其中dkl(·||·)为两个概率分布之间的kl散度计算函数，β为权重系数，p(z)为隐变量表示z的先验概率分布；

22、对神经网络参数集合(φ，θ)进行优化：

23、

24、其中，α3,α1分别为网络动态编码器qφ(z|c)和元策略网络πθ(r|s，z)的学习率参数，▽表示梯度算符。

25、优选地，所述利用基于互信息正则化的近端策略优化方法进行再训练，包括：

26、额外构建一个参数为θv的策略评价神经网络输出结果表示为在策略πθ(r|s，z)下当前状态s和隐变量表示z所能获得的期望收益，该神经网络除输出层为无激活函数的单个神经元外，其余网络架构与所述元策略网络πθ(r|s，z)相同；

27、所述再训练，包括基于互信息正则化的近端策略优化损失函数值函数损失函数和kl散度损失函数其中，损失函数和为：

28、

29、

30、ρ(θ)＝πθ(r|s，z)/πθ′(r|s，z)，z～qφ(z|c)，

31、

32、

33、

34、gk＝qoek+γqoek+1+γ2qoek+2+…

35、其中，clip[ρ(θ)，1-∈，1+∈]对ρ(θ)进行数值裁剪，确保ρ(θ)的值始终在(1-∈，1+∈)之间，ε∈(0，1)，γ∈(0，1)，θ′为上一轮参数迭代优化之前的旧参数值，qoek为用户下载第k个视频切片的第个码率版本并播放后获得的观看体验质量值，为元策略网络πθ(r|s，z)的推断的最优码率版本；

36、对神经网络参数集合(φ，θ，θv)进行优化，其中，网络动态编码器的参数更新只使用损失函数和的梯度：

37、

38、α3,α1,α2分别为网络动态编码器qφ(z|c)、元策略网络πθ(r|s，z)和策略评价神经网络的学习率参数，表示梯度算符。

39、优选地，所述互信息正则项的数学表达式为：

...

【技术保护点】

1.一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，包括：

2.根据权利要求1所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，用户端请求下载第k个视频切片时，所述用户端信息表示为：

3.根据权利要求2所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，所述网络动态编码器由输入层、中间层和输出层共三层神经网络以串联方式依次连接构成，其中：

4.根据权利要求3所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，所述元策略网络πθ(r|s，z)由输入层、中间层和输出层共三层神经网络以串联方式依次连接构成，其中：

5.根据权利要求4所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，所述通过行为克隆方法进行预训练，包括：

6.根据权利要求4所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，所述利用基于互信息正则化的近端策略优化方法进行再训练，包括：

7.根据权利要求5或6所述的一种基于上下文强化学习的码率自

8.根据权利要求7所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，将训练好的全局模型部署到分布式的、异构的用户端进行最优码率决策；

9.根据权利要求8所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，所述参数微调采用与所述全局模型相同的基于互信息正则化的深度强化学习方法。

10.一种基于上下文强化学习的码率自适应方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，包括：

5.根据权利要求4所述的一种基于上下文强化学习的码率自适应控制器的构建方法，其特征在于，所述通过行为克隆方...

【专利技术属性】
技术研发人员：李成林，阚诺文，蒋远堃，戴文睿，李劭辉，邹君妮，熊红凯，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人