【技术实现步骤摘要】
基于视频质量分数的DPPO码率自适应控制系统和方法
本专利技术涉及视频流
,具体地,涉及一种基于视频质量分数的DPPO码率自适应控制系统和方法。
技术介绍
近年来,随着互联网和通信技术的发展,基于HTTP的视频流量逐渐成为网络的主要流量来源。过去七年中,移动数据流量增长17倍,其中移动视频服务占所有移动数据服务的59%,预计在2022年将增加到80%。用户的对高质量视频的需求日益增长,但是受限于网络传输条件,用户在播放高质量视频时,经常会发生卡顿,从而影响整体的观赏体验。视频流媒体的自适应码率控制算法(AdaptiveBitrateRate,ABR)应运而生,其目的是尽可能让视频块的大小匹配当前网络带宽,从而提高网络带宽利用率,提升用户的体验质量(QualityofExperience,QoE)。随着计算机算力的增强,机器学习也被应用到码率自适应控制研究中,大多数算法利用强化学习虽然取得较好的效果,但是一方面一些算法没有考虑到视频质量参数,一味的选择高比特率,导致视频重新缓存,降低视频的整体观感,另外一方面存在更新步长过大的情况,导致无法有效学习,因此如果能设计一种使用强化学习的码率自适应算法,将未来视频质量作为QoE的一个指标,就能够在较低的比特率下,更好的学习特征,获得更高的视频质量。专利文献CN101854524A(申请号:CN200910064533.5)公开了一种甚低码率视频编码器视频控制方法,它包括I帧码率控制方法和P帧码率控制方法,所述的I帧码率控制方法包括以下步骤:①建立二阶率失 ...
【技术保护点】
1.一种基于视频质量分数的DPPO码率自适应控制系统,其特征在于,包括:/n发送端:获取实时视频包,并发送至视频质量分数预测模块和接收端;/n视频质量分数预测模块:根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数,将预测的质量分数送入码率自适应模块;/n接收端:接收到实时视频包后,反馈当前网络参数到码率自适应模块;/n码率自适应模块:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。/n
【技术特征摘要】
1.一种基于视频质量分数的DPPO码率自适应控制系统,其特征在于,包括:
发送端:获取实时视频包,并发送至视频质量分数预测模块和接收端;
视频质量分数预测模块:根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数,将预测的质量分数送入码率自适应模块;
接收端:接收到实时视频包后,反馈当前网络参数到码率自适应模块;
码率自适应模块:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。
2.根据权利要求1所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,所述视频质量分数预测模块包括空间特征提取模块和时域特征提取模块;
所述空间特征提取模块包括:采用卷积神经网络提取视频帧的空间特征;
所述时域特征提取模块包括:在经过空间特征提取后,通过长短期记忆网络提取视频序列的时域信息,保留和丢弃符合预设条件的信息,输出下一个视频包在各个比特率下的视频质量分数。
3.根据权利要求1所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,所述DPPO算法采用Actor-Critic强化学习框架,包括Actor模块和Critic模块;
所述Actor模块根据当前的状态输出动作;
所述Critic模块用于评估Actor模块采取的动作的优劣;
所述Critic模块的输入为状态s,输出为优势函数A:Qπ(s,a)-Vπ(s),其中:Qπ(s,a)指当前状态下采取的动作a所得的分数,Vπ(s)指当前状态下所有动作的平均分数。
4.根据权利要求3所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,将发送端和接收端观测到的网络信息作为状态,表达为:{e,v,b,r,d,l},其中:e表示过去k个发送的视频序列的质量分数,v表示下一个视频包在各个比特率下的视频质量分数,b表示过去k个视频序列发送的比特率,r表示接收端接收到的k个视频序列的比特率,d表示过去k个视频序列的延迟梯度,l表示前k个序列的包丢失率;
Actor模块的输出为动作的概率分布,表达式为:f(t)=(st,at),表示在状态st下每一个动作at的概率。
5.根据权利要求4所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,在Actor模块中,利用下列公式进行参数更新:
其中:表示对期望进行求导;θ表示策略函数中的神经网络参数;γt表示折扣率的t次方;r表示奖励;clip表示clip函数,使目标值限定在[min,max]之内,大于max的值使其等于max,小于min的值使其等于min;ε表示界限值,为常数,利用该值标定更新步幅的上界和下界;ratiot表示新策略与旧策略的比值,公式为:通过第二项裁剪概率比并取最小值,在ratio变大时更新的步长不超过ε,在ratio变小时仍取值ratio本身;At为优势函数;t表示子线程循环步数;
Critic模块通过损失函数进行网络参数更新...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。