基于多智能体强化学习的短视频码率自适应传输方法技术

技术编号：38337603 阅读：8 留言：0更新日期：2023-08-02 09:18

本发明专利技术提供一种基于多智能体强化学习的短视频码率自适应传输方法，步骤为：(1)每条短视频划分为视频块，视频块被编码为多个码率等级副本存在于内容分发节点；(2)向内容分发节点请求预缓存视频块，维护本地缓冲区；(3)滚动屏幕时清除上一个视频已下载但未播放的部分，视频队列中第二个视频开始播放；(4)缓冲区管理智能体选择休眠或预缓存的视频标识；(5)码率自适应智能体预缓存视频，确定下一个视频块的码率等级；(6)用户客户端将视频标识及其码率等级的请求提交给内容分发节点；(7)重复上述步骤，直至本地短视频会话结束。本发明专利技术训练过程采用模仿学习预训练，多智能体强化学习微调的方法进行码率决策，大大提升训练速度。大大提升训练速度。大大提升训练速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体强化学习的短视频码率自适应传输方法

[0001]本专利技术涉及多媒体通信
，具体涉及一种基于多智能体强化学习的短视频码率自适应传输方法。

技术介绍

[0002]在传统点播视频场景下，每条视频被预先切割为长度均等(如1s)的视频块(chunk)，每个视频块被分别编码为多个码率等级的副本存储于内容分发节点(CDN node，CDN)上，用户客户端通过不断的向CDN请求未来的chunk进行预缓存，以实现视频连续播放。
[0003]不同于传统的长视频流媒体场景(例如点播视频)，短视频场景下平台允许用户随时切换视频(滑动屏幕)。客户端通常对当前正在播放视频之外，还要对数条推荐视频进行预缓存，以确保观看过程中的用户体验质量(Quality of Experience,QoE)。但当用户没有观看到视频结尾就切换视频时，该条视频已被缓存但未被播放的部分所消耗的流量造成了带宽浪费。同时当用户切换到尚未缓存的视频时，缓存不足也可能会造成明显的启动延迟。
[0004]为了解决这些问题，目前的内容提供商主要采用短视频码率自适应传输算法(short video adaptive bitrate，SABR)来传输视频，针对每个视频块预测用户当前下行带宽可接收的最高视频质量，在优化用户体验质量的同时尽量减少带宽浪费。SABR算法首先需要决策对视频队列中的哪条视频进行预缓存或者决策休眠(sleep)固定时长(在这段时间中预缓存进程将被暂停)，然后决策预缓存该条视频的哪个码率等级。
[0005]近年来，SAB...

【技术保护点】

【技术特征摘要】
1.基于多智能体强化学习的短视频码率自适应传输方法，其特征在于，该方法包括如下步骤：(1)每条短视频被预先切割为等长的视频块，每个视频块被分别编码为多个码率等级的副本存储于内容分发节点上；(2)用户客户端通过不断向内容分发节点请求下载视频块进行预缓存，并为视频队列中的每个短视频维护一个本地缓冲区，包括当前正在播放的视频和推荐视频；其中，所述视频队列中的不同视频被标记为不同标识；(3)每当用户滚动屏幕时，视频队列中的第二个视频就开始播放，前一个视频中已经下载但是还未播放的部分将被清除；视频推荐机制推荐的新视频将被追加到视频队列中；(4)通过设置缓冲区管理智能体从短视频环境中感知视频块的状态进行训练并根据反馈得到的奖励信号做出决策，即根据视频队列中每个视频的过去K个视频块的吞吐量测量值和参数状态值的观测结果选择固定的休眠时间或需要预缓存的视频标识；(5)如果缓冲区管理智能体作出休眠决策，则用户客户端的预缓存进程将暂停一段预定义的时间；否则，通过设置码率自适应智能体首先预缓存对应视频标识的视频；然后根据该视频参数状态和网络传输状态确定预缓存该视频下一个视频块的码率等级；(6)用户客户端将带有视频标识及其码率等级的请求提交给内容分发节点；(7)重复上述步骤(2)至(6)，直至本地短视频会话结束。2.根据权利要求1所述的基于多智能体强化学习的短视频码率自适应传输方法，其特征在于，步骤(4)中，所述训练的过程包括模仿学习和多智能体强化学习两个阶段：在第一阶段，通过模仿专家策略来单独预训练所述缓冲区管理智能体和码率自适应智能体，将两个智能体预训练至专家策略；在第二阶段，使用多智能体强化学习对所述缓冲区管理智能体和码率自适应智能体策略进行微调，直至收敛到全局最优。3.根据权利要求1所述的基于多智能体强化学习的短视频码率自适应传输方法，其特征在于，步骤(4)中，所述缓冲区管理智能体的输入为视频队列中...

【专利技术属性】
技术研发人员：陈浩，郑倩媛，李岳恒，张子丞，马展，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人