当前位置: 首页 > 专利查询>南京大学专利>正文

基于多智能体强化学习的短视频码率自适应传输方法技术

技术编号:38337603 阅读:8 留言:0更新日期:2023-08-02 09:18
本发明专利技术提供一种基于多智能体强化学习的短视频码率自适应传输方法,步骤为:(1)每条短视频划分为视频块,视频块被编码为多个码率等级副本存在于内容分发节点;(2)向内容分发节点请求预缓存视频块,维护本地缓冲区;(3)滚动屏幕时清除上一个视频已下载但未播放的部分,视频队列中第二个视频开始播放;(4)缓冲区管理智能体选择休眠或预缓存的视频标识;(5)码率自适应智能体预缓存视频,确定下一个视频块的码率等级;(6)用户客户端将视频标识及其码率等级的请求提交给内容分发节点;(7)重复上述步骤,直至本地短视频会话结束。本发明专利技术训练过程采用模仿学习预训练,多智能体强化学习微调的方法进行码率决策,大大提升训练速度。大大提升训练速度。大大提升训练速度。

【技术实现步骤摘要】
基于多智能体强化学习的短视频码率自适应传输方法


[0001]本专利技术涉及多媒体通信
,具体涉及一种基于多智能体强化学习的短视频码率自适应传输方法。

技术介绍

[0002]在传统点播视频场景下,每条视频被预先切割为长度均等(如1s)的视频块(chunk),每个视频块被分别编码为多个码率等级的副本存储于内容分发节点(CDN node,CDN)上,用户客户端通过不断的向CDN请求未来的chunk进行预缓存,以实现视频连续播放。
[0003]不同于传统的长视频流媒体场景(例如点播视频),短视频场景下平台允许用户随时切换视频(滑动屏幕)。客户端通常对当前正在播放视频之外,还要对数条推荐视频进行预缓存,以确保观看过程中的用户体验质量(Quality of Experience,QoE)。但当用户没有观看到视频结尾就切换视频时,该条视频已被缓存但未被播放的部分所消耗的流量造成了带宽浪费。同时当用户切换到尚未缓存的视频时,缓存不足也可能会造成明显的启动延迟。
[0004]为了解决这些问题,目前的内容提供商主要采用短视频码率自适应传输算法(short video adaptive bitrate,SABR)来传输视频,针对每个视频块预测用户当前下行带宽可接收的最高视频质量,在优化用户体验质量的同时尽量减少带宽浪费。SABR算法首先需要决策对视频队列中的哪条视频进行预缓存或者决策休眠(sleep)固定时长(在这段时间中预缓存进程将被暂停),然后决策预缓存该条视频的哪个码率等级。
[0005]近年来,SABR算法主要包括基于固定规则和基于学习两类工作。
[0006](1)基于固定规则的SABR算法:APL(Zhang H,Ban Y,Zhang X,et al.Apl:Adaptive preloading of short video with lyapunov optimization[C]//2020IEEE International Conference on Visual Communications and Image Processing(VCIP).IEEE,2020:13

16)采用Lyapunov优化,提出了一种自适应预加载机制,以最大化播放流畅性和最小化带宽浪费。PDAS(Zhou C,Ban Y,Zhao Y,et al.PDAS:Probability

Driven Adaptive Streaming for Short Video[C]//Proceedings of the 30th ACM International Conference on Multimedia.2022:7021

7025)基于用户留存率构建概率奖励函数,人为设计缓冲区管理模型联合优化QoE,采用RobustMPC(Yin X,Jindal A,Sekar V,et al.A control

theoretic approach for dynamic adaptive video streaming over HTTP[C]//Proceedings of the 2015ACM Conference on Special Interest Group on Data Communication.2015:325

338)遍历所有可能行动来优化决策。然而基于固定规则的方法在具体部署时需要大量调整,易产生泛化性能差的问题,很难泛化到不同用户偏好和网络情况。同时和PDAS一样采用MPC这种贪婪启发式搜索算法进行决策时,其决策推理时间容易随着状态空间的增加而呈指数增长。
[0007](2)基于学习的SABR算法:为了克服固定规则算法泛化性差等问题,其引入强化学习,采集当下环境的观测信息作为神经网络的输入,通过神经网络计算在动作空间中选择一个动作作为码率决策,编码器根据码率决策对视频进行编码,然后将视频传输至到客户
端,客户端根据所采用的QoE信号向强化学习智能体(Agent)反馈奖励或惩罚,智能体以最大化累积奖励为目标更新神经网络参数。LiveClip(He J,Hu M,Zhou Y,et al.LiveClip:towards intellige nt mobile short

form video streaming with deep reinforcement learning[C]//Proceedings of the30th ACM Workshop on Network and Operating Systems Support for Digital Audio and Vi deo.2020:54

59)采用强化学习来预测视频切换事件并动态修改预加载顺序。DUASVS(Zh ang G,Zhang J,Liu K,et al.Duasvs:A mobile data saving strategy in short

form video str eaming[J].IEEE Transactions on Services Computing,2022)采用集成学习对预缓存阈值和视频码率决策制定了控制策略。DAM(Qian S Z,Xie Y,Pan Z,et al.DAM:Deep Reinforce ment Learning based Preload Algorithm with Action Masking for Short Video Streaming[C]//Proceedings of the 30th ACM International Conference on Multimedia.2022:7030

7034)采用深度强化学习构建控制策略,使用动作屏蔽机制对缓冲区管理和码率自适应进行决策,最小化训练复杂度。但是上述基于学习的方法在训练过程中由于大规模离散动作空间(由视频标识(identification,ID),码率等级,休眠时间决策数导致的)探索造成收敛速度慢的问题。

技术实现思路

[0008]针对以上现有技术中存在的缺陷,本专利技术的目的在于提供一种基于多智能体强化学习的短视频码率自适应传输方法,进一步提高用户体验质量,同时减少带宽浪费。
[0009]为达上述目的,本专利技术采用的技术方案如下:
[0010]基于多智能体强化学习的短视频码率自适应传输方法,该方法包括如下步骤:
[0011](1)每条短视频被预先切割为等长的视频块,每个视频块被分别编码为多个码率等级的副本存储于内容分发节点上;
[0012](2)用户客户端通过不断向内容分发节点请求下载视频块进行预缓存,并为视频队列中的每个短视频维护一个本地缓冲区,包括当前正在播放的视频和推荐视频;其中,所述视频队列中的不同视频被标记为不同标识;
[0013](3)每当用户滚动屏幕时,视频队本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多智能体强化学习的短视频码率自适应传输方法,其特征在于,该方法包括如下步骤:(1)每条短视频被预先切割为等长的视频块,每个视频块被分别编码为多个码率等级的副本存储于内容分发节点上;(2)用户客户端通过不断向内容分发节点请求下载视频块进行预缓存,并为视频队列中的每个短视频维护一个本地缓冲区,包括当前正在播放的视频和推荐视频;其中,所述视频队列中的不同视频被标记为不同标识;(3)每当用户滚动屏幕时,视频队列中的第二个视频就开始播放,前一个视频中已经下载但是还未播放的部分将被清除;视频推荐机制推荐的新视频将被追加到视频队列中;(4)通过设置缓冲区管理智能体从短视频环境中感知视频块的状态进行训练并根据反馈得到的奖励信号做出决策,即根据视频队列中每个视频的过去K个视频块的吞吐量测量值和参数状态值的观测结果选择固定的休眠时间或需要预缓存的视频标识;(5)如果缓冲区管理智能体作出休眠决策,则用户客户端的预缓存进程将暂停一段预定义的时间;否则,通过设置码率自适应智能体首先预缓存对应视频标识的视频;然后根据该视频参数状态和网络传输状态确定预缓存该视频下一个视频块的码率等级;(6)用户客户端将带有视频标识及其码率等级的请求提交给内容分发节点;(7)重复上述步骤(2)至(6),直至本地短视频会话结束。2.根据权利要求1所述的基于多智能体强化学习的短视频码率自适应传输方法,其特征在于,步骤(4)中,所述训练的过程包括模仿学习和多智能体强化学习两个阶段:在第一阶段,通过模仿专家策略来单独预训练所述缓冲区管理智能体和码率自适应智能体,将两个智能体预训练至专家策略;在第二阶段,使用多智能体强化学习对所述缓冲区管理智能体和码率自适应智能体策略进行微调,直至收敛到全局最优。3.根据权利要求1所述的基于多智能体强化学习的短视频码率自适应传输方法,其特征在于,步骤(4)中,所述缓冲区管理智能体的输入为视频队列中...

【专利技术属性】
技术研发人员:陈浩郑倩媛李岳恒张子丞马展
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1