基于强化学习的音视频协作自适应码率控制系统及方法技术方案

技术编号：41157031 阅读：5 留言：0更新日期：2024-04-30 18:21

本发明专利技术公开了一种基于强化学习的音视频协作自适应码率控制系统及方法，构建基于强化学习的Actor‑Critic神经网络，采用集中式训练、分布式执行框架。利用本地音频码率决策Actor和本地视频码率决策Actor，以音视频各自相关的包括吞吐量预测结果、缓冲区信息和其他有效信息作为状态空间，以码率为动作进行决策，以及利用全局监督Critic实现码率决策朝着最大化累计奖励更新，实现在通勤场景下优化音视频流自适应码率传输。与现有技术相比，本发明专利技术是面向音频和视频协作自适应码率的，在ABR决策时嵌入针对多变量时间序列的轻量级吞吐量预测模块，有效缓解通勤场景下因网络波动带来的音视频播放卡顿、低质量等情况。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网中流媒体传输领域，特别是涉及一种基于强化学习和吞吐量预测的音视频协作自适应码率决策系统及方法。

技术介绍

1、近年来，音频和视频技术迅速发展，社交媒体平台日益流行，视频流量也急剧增长。音频和视频作为交流、学习和消遣的形式，不再受时间和场景的限制。自适应码率(abr)算法作为改善用户体验的有效方法，改善通勤用户的音视频自适应体验十分值得研究。

2、当前的abr算法在对象上主要是面向视频的算法，在方法上主要分为启发式算法和基于智能的算法。启发式算法主要分为三类：基于吞吐量预测的算法、基于缓冲区信息的算法和结合两者的混合算法。启发式算法难以应对变化的网络状态，容易出现频繁卡顿、低质量等情况，需要使用基于智能的算法。基于智能的算法是利用强化学习等智能方法，将一系列状态信息输入神经网络，自动选择下一个块码率的算法。

3、而对应于这种情况下，网络也有着与路线相关、波动大等方面的限制的使用场景下，例如人们在通勤时，有着音视频协同播放和单独播放优化的需求。在这样的场景下，仅依靠面向视频的算法无法满足需求，需要考虑面向音频和视频的算法。

4、因此需要解决用户对音频和视频优化的需求以及网络波动问题。将这两个问题分别视为内部需求和外部因素。首先，内部需求是首要解决的问题。它指的是音频和视频协作优化。所谓"协作"，包含协同和单独之意，是指音频和视频共同为实现用户体验最大化的目标而努力。它强调综合的视听体验，既要注重二者的结合，又要优化音频或视频的单独播放质量指标。其次，在外部因素方面，通勤中的吞吐

技术实现思路

1、针对上述现有技术及其存在的应用场景和技术缺陷，本专利技术旨在提出了一种基于强化学习的音视频协作自适应码率决策系统及方法，将吞吐量预测结果和强化学习神经网络相结合，输出优化的自适应码率决策(也就是abr策略)。

2、为了达到上述专利技术目的，本专利技术利用以下技术方案实现：

3、一种基于强化学习的音视频协作自适应码率控制系统，包括吞吐量预测模块、基于actor-critic神经网络的自适应码率决策模块和码率输出模块；

4、所述吞吐量预测模块，基于tpa-lstm神经网络预测未来时刻的吞吐量；

5、所述基于actor-critic神经网络的自适应码率决策模块，该模块进一步包括本地音频码率决策actor、本地视频码率决策actor和全局监督critic，其中，所述本地音频码率决策actor和所述本地视频码率决策actor，将包括与音视频各自相关的吞吐量预测结果、缓冲区信息以及与音视频块相关的信息作为音频相关状态空间sa和音频相关状态空间sv，根据当前状态输出每个选择的音频动作aa和选择的音视频动作aa的概率，根据概率选择合适的动作与环境交互，得到下一个状态和奖励函数reward，根据当前状态空间和动作的奖励函数、所述全局监督critic得到的当前状态的价值函数和下一个状态的价值函数估计结果，更新所述本地音频码率决策actor和所述本地视频码率决策actor的策略函数，作出满足最大化累积奖励的期望值的音视频码率决策选择；

6、所述全局监督critic，负责监督所述本地音频码率决策actor和所述本地视频码率决策actor的决策更新，包括整合本地音频码率决策actor和所述本地视频码率决策actor的状态空间作为神经网络的状态空间，计算当前状态下的价值函数、下一状态下的价值函数；

7、所述码率输出模块，进行所述基于actor-critic神经网络的自适应码率决策模块得到的满足最大化累积奖励的期望值的音视频码率输出。

8、一种基于强化学习的音视频协作自适应码率控制方法，包括：

9、步骤1、设定本地音频码率决策actor和本地视频码率决策成actor，具有策略网络参数；将全局监督设定为critic，具有值函数网络参数，构建自适应码率策略模型的actor-critic神经网络框架；

10、步骤2、进行步骤1的本地音频码率决策actor、所述本地视频码率决策actor以及全局监督critic初始化；

11、步骤3、构建基于强化学习的actor-critic神经网络，使用actor-critic神经网络进行本地音频码率决策和本地视频码率决策，基于集中式训练、分布式执行决策的双智能体框架：

12、在集中训练期间，本地音频码率决策actor和本地视频码率决策actor分别观察与自己相关的信息，形成状态空间sa,sv，输入对应神经网络，从而分别决策音频和视频的码率aa,av，在训练时，全局监督critic将本地音频码率决策actor和本地视频码率决策actor各自的状态空间进行合并，输入对应神经网络，得到价值函数va,vv，再对应地传递给本地音频码率决策actor和本地视频码率决策actor，计算优势函数，实现根据优势函数不断更新音频码率决策的策略和视频码率决策的策略的过程；

13、在不断进行音频码率决策actor和视频码率决策actor训练的同时生成包括每个状态空间信息、选择的动作信息以及得到的奖励值在内的一系列信息，根据这些信息组的累计值计算优势函数等值，更新actor-critic神经网络，经过码率输出模块进行最大化预期收益的音视频码率的输出。

14、本专利技术的有益效果及优点在于：

15、1、面向音频和视频的协作自适应，着重优化两者协同需求下的视听一体化体验。采用设计两个actor和一个critic的a2c的神经网络的框架决策音频和视频码率，以满足用户音视频优化的内在需求。在abr决策时嵌入针对多变量时间序列的轻量级吞吐量预测模块，有效缓解通勤场景下因网络波动带来的音视频播放卡顿、低质量等情况，弥补强化学习abr算法的不足；

16、2、可以实现音频或者视频的单独自适应，以满足用户在通勤场景下对比特率阶梯协作不十分关注，有时只听音频不看视频，或者看视频时关闭声音的需求；

17、3、在通勤过程中有效实现音频和视频码率的协作自适应。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，包括吞吐量预测模块、基于Actor-Critic神经网络的自适应码率决策模块和码率输出模块；

2.根据权利要求1所述的一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，所述吞吐量预测模块具体包括以下处理：

3.根据权利要求l所述的一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，其中，所述吞吐量预测模块采用嵌入式设计，嵌入到基于Actor-Critic神经网络的自适应码率决策模块中。

4.根据权利要求1所述的一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，所述状态空间定义包括：

5.根据权利要求l所述的一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，通过最小化实际选择(本地音频/视频码率决策Actor选择的码率)得到的奖励累计值和预测结果(全局监督Critic输出结果)之间的差距，反馈给本地音频码率决策Actor和所述本地视频码率决策Actor。

6.根据权利要求1所述的一种基于强化学习的音视频协作自适应码率决策系

7.一种基于强化学习的音视频协作自适应码率控制方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，包括吞吐量预测模块、基于actor-critic神经网络的自适应码率决策模块和码率输出模块；

2.根据权利要求1所述的一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，所述吞吐量预测模块具体包括以下处理：

3.根据权利要求l所述的一种基于强化学习的音视频协作自适应码率控制系统，其特征在于，其中，所述吞吐量预测模块采用嵌入式设计，嵌入到基于actor-critic神经网络的自适应码率决策模块中。

4.根据权利要求1所述的一种基于强化学习的音视频协作自适应码率控制系统，其特...

【专利技术属性】
技术研发人员：张朝昆，杨秋敏，唐涛，都景舜，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人