当前位置: 首页 > 专利查询>南京大学专利>正文

基于个性化联邦强化学习的流媒体比特率自适应调整方法技术

技术编号:37980786 阅读:8 留言:0更新日期:2023-06-30 09:55
本发明专利技术公开了一种基于个性化联邦强化学习的流媒体比特率自适应调整方法,在基于HTTP的动态自适应流系统中,基于个性化联邦学习和深度强化学习,通过建立马尔可夫决策过程,将比特率自适应过程形式化表示。用户在本地使用强化学习来学习比特率自适应策略。目标方程以最大化用户的体验质量为目的。使用联邦学习协调用户和中央服务器来训练全局模型,并为每个用户使用本地数据在全局模型的基础上训练个性化模型。经过大量的训练,用户可以使用个性化模型来选择比特率从而实现在当前网络条件下目标方程的值最大。本发明专利技术在保护隐私不泄露的同时解决了网络环境和用户行为的重尾特性。的同时解决了网络环境和用户行为的重尾特性。的同时解决了网络环境和用户行为的重尾特性。

【技术实现步骤摘要】
基于个性化联邦强化学习的流媒体比特率自适应调整方法


[0001]本专利技术涉及机器学习技术在视频流媒体领域的应用,具体涉及一种基于个性化联邦强化学习的流媒体比特率自适应调整方法。

技术介绍

[0002]强化学习是机器学习的一个分支,是指智能系统通过不断试错来学习到从环境到行为的映射,从而获得最大得奖励。强化学习通常用马尔可夫决策过程(简称MDP)来描述,如图1所示,机器处于环境E中,状态空间为S,其中每个状态s∈S是智能体感知到的对环境的观察,机器能够采取的动作构成了动作空间A,在当前状态s上执行动作a时,环境会根据状态转移函数P将当前状态按某种概率转换到另一个状态,同时根据奖励函数R反馈给机器一个奖励。强化学习可以用来求解马尔可夫决策过程MDP,当状态或动作空间很大时,使用深度强化学习(DRL)可以更好地进行求解。
[0003]现如今,视频流占据了互联网中超过80%的流量。HTTP自适应比特率流媒体(HAS)是主流的视频流媒体解决方案。它将视频内容分割成多个2秒到4秒的小块,并通过HTTP协议将小块像普通网络内容一样提供给用户。基于HTTP的动态自适应流(DASH)是第一个基于HTTP自适应比特率流媒体的开源解决方案。在DASH系统中,每个小块都有一种或多种比特率的表示。适应比特率(ABR)算法是根据网络条件、设备能力和用户偏好,为客户端视频播放器动态地选择视频块比特率从而最大化用户的体验质量(QoE)的算法。然而,在动态网络中选择合适的比特率是具有挑战性的,因为网络带宽是有限的,并且用户体验质量(QoE)的各个指标是相互冲突的,需要互相权衡。
[0004]作为视频流系统中的重要算法,ABR算法一直在被广泛研究。传统的基于模型的ABR算法有基于网络带宽的算法如FESTIVE,以及基于用户缓冲区占用率的算法如BOLA、BBA等。这些算法通过对网络状况进行建模,通过估计当前时刻的网络带宽或只根据当前用户播放缓冲区的占用率来选择比特率。这些算法由于没有使用所有有用的信息来做出比特率决策,因此未能达到最佳性能。MPC结合了网络吞吐量估计和缓冲区占用信息使用模型预测控制算法来选择比特率,以便在未来几个视频块的范围内实现QoE最大化。然而,固定的控制规则使得MPC无法适应现实世界中广泛的网络条件和不同的QoE目标。最近的工作,如Stick、Fugu等使用机器学习算法来生成ABR策略。基于机器学习的ABR算法使用观察到的原始数据(例如,网络吞吐量、播放缓冲区占用、视频块大小)作为神经网络输入,输出下一个视频块的预测带宽、下载时间或比特率。尽管基于深度强化学习的ABR算法具有灵活性和有效性,但将其应用于实际视频流系统中仍然存在各种挑战。一方面,在视频流会话中收集训练数据很困难,这些数据往往都涉及到用户的隐私,将用户在各种网络环境中的视频观看信息上传到中央服务器中进行强化学习训练可能引起严重的用户隐私问题。另一方面,由于网络条件的复杂性和多样性,针对异构的客户端训练统一的DRL模型是不可行的,也很难处理容易随时间变化的用户行为。

技术实现思路

[0005]专利技术目的:为了克服现有的比特率自适应算法的缺点,本专利技术提供一种基于个性化联邦强化学习的流媒体比特率自适应调整方法,以提高用户的体验质量。
[0006]技术方案:为实现上述的目的,本专利技术的基于个性化联邦强化学习的流媒体比特率自适应调整方法包括以下步骤:
[0007](1)建立强化学习模型,其中,环境状态包括:过去若干视频块的网络吞吐量测量值、过去若干个视频块的下载时间、下一个视频块在各种比特率条件下的大小、当前缓冲区占用率、当前视频剩余的块数、上一个下载的视频块的比特率;客户端的动作为下一个视频块的比特率选择;环境返回的奖励为当前选择的视频块对QoE的贡献;目标方程的目的是最大化用户的体验质量,包括视频清晰度、客户端重缓冲时间以及视频的比特率流畅度;
[0008](2)客户端本地进行深度强化学习,过程如下:客户端收集当前的状态,将当前状态输入强化学习模型的策略网络,策略网络返回选择的动作,将得到的动作与环境进行交互,从而得到{状态

动作

奖励}对,利用{状态

动作

奖励}对训练值函数网络,利用值网络函数训练策略网络,然后不断重复上述操作直到模型收敛;
[0009](3)客户端与中央服务器之间进行联邦学习,过程如下:客户端将本地训练好的模型返回给中央服务器,中央服务器接收各个客户端发送的模型,并将其聚合为新的全局模型,中央服务器再将新的全局模型发送给各个客户端,各个客户端再继续本地训练和上送的操作,最终得到学习的结果为一个全局模型和多个个性化模型,代表状态到动作的映射规则;
[0010](4)输入客户端状态到训练好的个性化模型中,得到最大化用户QoE的比特率。
[0011]进一步地,所述目标方程表示为:
[0012][0013]其中,N表示当前视频的总块数;R
n
代表每个块n的视频比特率;T
n
代表每个块n的重新缓冲时间;q(R
n
)是一个将比特率R
n
映射到用户感知的视频质量的函数;μ和τ分别对应重新缓冲时间和视频质量变化流畅度的非负加权参数。
[0014]进一步地,使用的强化学习方法为Actor

Critic算法,并且在其基础上增加了一个上下文神经网络模块,上下文神经网络模块使用客户端的状态和环境返回的奖励作为输入,输出为当前环境的潜在表示向量,该向量最终作为值函数网络的输入来指导值函数网络的学习。
[0015]进一步地,强化学习训练中上下文网络和值函数网络的更新方程为:其中V(s,z)表示值函数,θ
v
表示值函数网络的参数,θ
c
表示上下文网络的参数,γ是对未来奖励的折扣因子,r
t
表示时刻t的回报。
[0016]进一步地,强化学习训练中,策略网络的更新方程为:其中θ表示测策略网络的参数,R
t
表示时间点t时的预期折扣奖励;α是学习率;γ是对未来奖励的折扣因子;β为训练
参数;a
t
表示强化学习模型的动作;s
t
表示强化学习模型的客户端状态;z
t
表示上下文网络模块的输出;π
θ
表示策略网络;表示更新策略网络参数的梯度;H(
·
)是一个熵项。
[0017]进一步地,使用的联邦学习方法为FedAvg算法,对各个客户端发送回中央服务器的模型使用加权平均算法计算全局模型。
[0018]进一步地,联邦学习模型聚合的方程为:其中n
i
表示客户端i的本地训练数据的数量,C表示参与联邦学习的客户端总数量,表示客户端i发送的第t轮训练的全局模型。
[0019]有益效果:本专利技术提出了一种基于个性化联邦学习的流媒体比特率自适应方法,在基于HTTP的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于个性化联邦强化学习的流媒体比特率自适应调整方法,其特征在于,所述方法包括以下步骤:(1)建立强化学习模型,其中,环境状态包括:过去若干视频块的网络吞吐量测量值、过去若干个视频块的下载时间、下一个视频块在各种比特率条件下的大小、当前缓冲区占用率、当前视频剩余的块数、上一个下载的视频块的比特率;客户端的动作为下一个视频块的比特率选择;环境返回的奖励为当前选择的视频块对QoE的贡献;目标方程的目的是最大化用户的体验质量,包括视频清晰度、客户端重缓冲时间以及视频的比特率流畅度;(2)客户端本地进行深度强化学习,过程如下:客户端收集当前的状态,将当前状态输入强化学习模型的策略网络,策略网络返回选择的动作,将得到的动作与环境进行交互,从而得到{状态

动作

奖励}对,利用{状态

动作

奖励}对训练值函数网络,利用值网络函数训练策略网络,然后不断重复上述操作直到模型收敛;(3)客户端与中央服务器之间进行联邦学习,过程如下:客户端将本地训练好的模型返回给中央服务器,中央服务器接收各个客户端发送的模型,并将其聚合为新的全局模型,中央服务器再将新的全局模型发送给各个客户端,各个客户端再继续本地训练和上送的操作,最终得到学习的结果为一个全局模型和多个个性化模型,代表状态到动作的映射规则;(4)输入客户端状态到训练好的个性化模型中,得到最大化用户QoE的比特率。2.根据权利要求1所述的方法,其特征在于,所述目标方程表示为:其中,N表示当前视频的总块数;R
n
代表每个块n的视频比特率;T
n
代表每个块n的重新缓冲时间;q(R
n
)是一个将比特率R
n
映射到用户感知的视频质量的...

【专利技术属性】
技术研发人员:李文中徐业婷陆桑璐
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1