【技术实现步骤摘要】
基于强化学习的视频自适应码率控制系统及方法
[0001]本专利技术涉及互联网中流媒体传输领域,尤其涉及一种基于吞吐量预测和强化学习的视频自适应码率控制系统及方法。
技术介绍
[0002]在目前全球互联网流量使用数据中,视频流量占总体的50%以上并且还在逐年提升。点播视频不可或缺,同时直播视频和各种视频会议的需求越来越多。为了提高视频用户体验质量(quality ofexperience,QoE),自适应码率(adaptive bitrate,ABR)技术能够通过自动调节分辨率有效提高用户QoE。并且,在ABR技术中,视频流将被分块传输,根据决策的结果选择传输下一时刻的视频块码率,从而实现自适应的效果。
[0003]当前ABR技术的实现主要分为三类算法:基于吞吐量预测算法、基于缓冲区信息算法和混合算法。基于吞吐量预测的算法在带宽环境不佳时有可能会经常陷入卡顿状态,基于缓冲区信息的算法可能会长期处于保守状态,以上两种算法已经不再适用于ABR。混合算法同时使用吞吐量预测和缓冲区信息进行自适应码率决策。
[0004] ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的视频自适应码率控制系统,实现了在低时延视频流中根据网络环境实时调整视频码率,其特征在于,该系统包含吞吐量预测模块、强化学习决策模块和平滑控制模块;其中:所述吞吐量预测模块,用于计算历史吞吐量,将吞吐量序列输入到LSTM神经网络进行预测,得到未来时刻的吞吐量预测结果,并将其作为强化学习神经网络中状态空间的一个参数;所述强化学习决策模块,用于构建强化学习神经网络DuelingDQN,把吞吐量预测结果和缓冲区信息及其他有效信息作为状态空间,通过智能体网络计算得到初步的码率等级,同时该模块中的训练部分根据历史信息不断更新智能体;所述平滑控制模块,用于获取从强化学习模块得到的初步码率决策结果和上一时刻的码率信息,根据历史吞吐量情况定义允许带宽波动的范围,由历史吞吐量是否在允许波动的情况确定是否使用平滑控制;使用平滑控制时,采用与上一个时刻相同的码率等级作为结果,在上一时刻为最高码率情况下,采用降低一级上一时刻码率等级作为结果。2.如权利要求1所述的一种基于强化学习的视频自适应码率控制系统,其特征在于,所述LSTM神经网络结构包括遗忘门、输入门和输出门,作为一个循环结构,LSTM神经网络上一时刻的预测结果会再次加入到下一时刻与下一时刻数据同时进行预测。3.如权利要求1所述的一种基于强化学习的视频自适应码率控制系统,其特征在于,所述强化学习网络结构包括智能体、智能体与环境交互的状态空间S、智能体向环境发起的选择动作a、存储状态(s
′
,a,r,s)、经验池以及训练网络;智能体的ABR算法应用于带宽波动和低时延视频流中,实现决策功能并通过训练网络不断学习更新ABR策略。4.如权利要求3所述的一种基于强化学习的视频自适应码率控制系统,其特征在于,所述强化学习网络优先选择DuelingDQN网络,在构建强化学习网络时将状态价值与动作价值分为先两个网络再进行合并得到最后的DuelingDQN网络。5.一种基于强化学习的视频自适应码率控制方法,其特征在于,该方法包括以下步骤:步骤1:进行吞吐量预测,即利用LSTM神经网络,从获取到的历史吞吐量预测出未来吞吐量大小并将其作为强化学习神经网络中状态空间的一个参数;具体包括以下处理:步骤1.1:获取历史数据包括历史传输视频块的大小Chunk
size
和下载时间Chunk
during
;步骤1.2:计算历史吞吐量,公式如下:历史吞吐量=Chunk
size
/Chunk
during
之后,把历史传输视频块中的前30个传输视频块的吞吐量数值添加到历史吞吐量序列X,将历史吞吐量序列X进行归一化处理,归一化公式如下:其中,X
norm
为归一化后得到的结果,X为原始数值,X
max
为序列中最大值,X
min
为序列中最小值;步骤1.3:构建LSTM神经网络作为预测模型,该LSTM神经网络结构包括遗忘门、输入门和输出门,作为一个循环结构,LSTM神经网络上一时刻的预测结果会再次加入到下一时刻与下一时刻数据同时进行预测;步骤1.4:将历史吞吐量序列归一化后得到的结果X
norm
作为LSTM神经网络的输入;
步骤1.5:输出预测值,即归一化后的吞吐量预测值数值,作为吞吐量预测权重为步骤2.1的状态空间输入;步骤2:构建强化学习网络;其结构包括智能体、智能体与环境交互的状态空间S、智能体向环境发起的选择动作a、存储状态(s
′
,a,r,s)、经验池以及训练网络,智能体的ABR算法应用于带宽波动和低时延视频流中,实现决策功能并通过训练网络不断学习更新ABR策略;具体包括以下处理:步骤2.1:强化学习网络中智能体...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。