System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多智能体强化学习的端到端码率自适应控制方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

基于多智能体强化学习的端到端码率自适应控制方法技术

技术编号:40140816 阅读:9 留言:0更新日期:2024-01-23 23:35
本发明专利技术提供了一种基于多智能体强化学习的端到端码率自适应控制方法,其步骤如下:(1)将原始视频按照时间间隔划分为视频帧组,计算出视频每帧的空间复杂度和时间复杂度并求取平均值;(2)针对每个视频帧组,获取网络状况和编码器信息,并将其与复杂度信息联合送入预先训练好的多智能体神经网络,分别决策出压缩参数CRF值、帧率和分辨率编码决策,然后交给编码器进行视频编码;(3)视频发送端以帧为单位依次发送视频流,接收端部署一个视频解码器用于解码和播放接收到的视频流,并计算出当前实时丢包率和平均往返延迟,根据实际播放帧数算出播放帧率;(4)重复上述步骤,直至此次视频结束。本发明专利技术能更好地优化用户的体验质量。

【技术实现步骤摘要】

本专利技术涉及多媒体通信,具体涉及一种基于多智能体强化学习的多维度端到端码率自适应控制方法。


技术介绍

1、视频内容在当今互联网的流量中占有很大比例。目前的服务提供商主要使用自适应流媒体传输技术来传输视频,即根据一定的算法和规则,动态地切换视频码率,以提高用户体验质量(quality of experience,qoe)。随着人们生活方式的改变,实时视频通信(real time video communications,rtvc)业务迅猛发展。

2、在视频点播应用程序中,内容提供商通常会提前以不同的码率级别对视频进行编码,并采用自适应码率(adaptive bitrate,abr)技术来对抗底层的网络波动,以实现质量优化。然而,在rtvc应用程序中,由于无法获得压缩后视频码率,码率自适应变得更具挑战性。google公司开发的网络实时通信(web real-time communication,webrtc)框架是一个具有代表性的rtvc框架,在业界被广泛使用。其中实现的abr策略包括两个主要过程:目标码率决策和视频码率控制。前者包括通过分析数据包丢失率和往返时间(round-triptime,rtt)间隔等网络状态度量来估计可用带宽。估计带宽作为应用层编码器编码视频的目标码率,为了使视频码率与目标码率相匹配,编码器使用内置的码率控制算法自适应地确定每一帧的量化参数(quantization parameters,qp)。同时,webrtc动态调整分辨率或帧率,以补偿编码器不准确的码率控制。

3、然而,这种范例存在几个严重的问题,使得现有rtvc应用程序的性能远非理想。首先,传输层和应用层的不协调削弱了abr策略的有效性。这是由于拥塞控制和码率控制之间有限的信息共享和决策粒度不匹配造成的。此外,现有的帧率或分辨率自适应策略采用固定启发式形式的预设规则,不能适应不同的视频内容。最后,将编码器中的码率控制算法与帧率和分辨率的外部自适应策略的简单结合,未能实现完美的协作,从而降低了最终的性能。近年来,基于强化学习(reinforcement learning,rl)的拥塞控制方法已经出现,旨在提高传输层带宽估计的精度。然而,它们并没有走出上述的范式,因此也具有相同的缺点。


技术实现思路

1、针对以上现有技术中存在的缺陷,本专利技术的目的在于提供一种基于多智能体强化学习的多维度端到端码率自适应控制方法,同时提取网络条件和视频内容复杂度特征,利用多个智能体分别决策压缩参数crf值、分辨率和帧率等编码参数,从而控制实际视频码率,以端到端的方式直接优化用户的qoe。

2、为达上述目的,本专利技术采用的技术方案如下:

3、基于多智能体强化学习的端到端码率自适应控制方法,包括如下步骤:

4、(1)由内容提供端生成原始视频,然后利用视频切片的操作将原始视频划分为视频帧组,计算出每个视频帧组所包含视频帧的空间复杂度信息和时间复杂度信息作为内容复杂度状态;

5、(2)从视频编码器的设置参数中收集视频压缩参数crf值、分辨率、帧率作为编码器参数,从视频接收端收集播放帧率、平均往返时延和数据包丢失率作为网络传输状态;

6、(3)针对每个视频帧组,根据所述内容复杂度状态和网络传输状态,利用多智能体神经网络得到未来视频压缩参数crf值、分辨率和帧率,交由编码器进行编码;所述多智能体神经网络包括三个智能体,针对压缩参数crf值、分辨率和帧率这三个决策维度分别提取特征并做出决策;

7、(4)视频发送端以帧为单位依次发送视频帧组的视频流,接收端部署视频解码器用于解码和播放接收到的视频流,并计算出当前实时丢包率和平均往返延迟,根据实际播放帧数算出播放帧率;

8、(5)重复上述步骤(1)至(4),直至此次视频结束。

9、进一步地,步骤(3)中,所述多智能体神经网络的输入包括视频复杂度、网络传输层和视频应用层的共八个状态参数:视频帧组的内容空间复杂度、内容时间复杂度、历史压缩参数crf值、历史编码分辨率、历史编码帧率、播放帧率、平均往返时延、丢包率。

10、进一步地,步骤(3)中,所述多智能体神经网络利用多智能体行动者-评论家框架以及课程学习策略来生成其控制策略;其中,所述课程学习策略包括针对每个智能体的基础训练和三个智能体的联合训练两个阶段:

11、(1)在基础训练阶段,每个智能体被放置在一个独有的环境中训练,其他智能体的策略和动作被屏蔽,以此来将非稳态的训练环境转换为稳态训练环境;其中,每个智能体都使用单智能体强化学习算法进行训练;

12、(2)在联合训练阶段,首先用基础训练阶段得到的模型权重初始化三个智能体,然后将三个智能体共同放在完整的多维度决策环境下训练;其中,所述联合训练阶段使用多智能体强化学习算法进行训练,每个智能体的行动者共享一个共同的评论家,共享评论家计算共同的奖励信号用于指导每个智能体迭代。

13、进一步地,步骤(3)中,所述多智能体神经网络中的行动者和评论家采用单独的神经网络,并另外引入一个共享的评论家神经网络来产生一个共享的值信号;其中,所述行动者和评论家的神经网络结构相同,均包括三层,第一层包括门控循环单元循环层,所述门控循环单元循环层用于提取输入状态中的时间特征;所述门控循环单元循环层输出后依次进入第二层全连接层和第三层全连接层。

14、进一步地,步骤(4)中,根据所述视频流发送过程中获取的编码视频的质量、视频播放的流畅性和端到端视频延迟信息计算奖励函数,并反馈给所述多智能体神经网络以更新网络参数,输出下一个视频压缩参数crf值、分辨率和帧率的决策。

15、本专利技术针对实时视频通信的码率自适应挑战,提出利用多智能体神经网络直接对多维度视频编码参数进行动态决策,避免了在高帧率高分辨率传输内容下网络容量和实际视频码率不匹配的问题,实现了时变网络状况下更通用和精确的码率控制,更好地优化用户的体验质量。相比现有技术,本专利技术利用多智能体神经网络来联合决策多维度的视频编码参数,包括压缩参数crf值、分辨率和帧率,优于现有的基于规则的和补偿式的多维度自适应方案。此外,本方案通过引入两阶段的课程学习,解决了多智能体任务的非稳态问题,大大缩减了训练复杂度,保证了训练稳定性以及模型性能。

本文档来自技高网...

【技术保护点】

1.基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,步骤(3)中,所述多智能体神经网络的输入包括视频复杂度、网络传输层和视频应用层的共八个状态参数:视频帧组的内容空间复杂度、内容时间复杂度、历史压缩参数CRF值、历史编码分辨率、历史编码帧率、播放帧率、平均往返时延、丢包率。

3.根据权利要求1所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,步骤(3)中,所述多智能体神经网络利用多智能体行动者-评论家框架以及课程学习策略来生成其控制策略;其中,所述课程学习策略包括针对每个智能体的基础训练和三个智能体的联合训练两个阶段:

4.根据权利要求3所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,步骤(3)中,所述多智能体神经网络中的行动者和评论家采用单独的神经网络,并另外引入一个共享的评论家神经网络来产生一个共享的值信号;其中,所述行动者和评论家的神经网络结构相同,均包括三层,第一层包括门控循环单元循环层,所述门控循环单元循环层用于提取输入状态中的时间特征;所述门控循环单元循环层输出后依次进入第二层全连接层和第三层全连接层。

5.根据权利要求1所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,步骤(4)中,根据所述视频流发送过程中获取的编码视频的质量、视频播放的流畅性和端到端视频延迟信息计算奖励函数,并反馈给所述多智能体神经网络以更新网络参数,输出下一个视频压缩参数CRF值、分辨率和帧率的决策。

6.根据权利要求5所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,所述奖励函数rt的计算公式如下:

...

【技术特征摘要】

1.基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,步骤(3)中,所述多智能体神经网络的输入包括视频复杂度、网络传输层和视频应用层的共八个状态参数:视频帧组的内容空间复杂度、内容时间复杂度、历史压缩参数crf值、历史编码分辨率、历史编码帧率、播放帧率、平均往返时延、丢包率。

3.根据权利要求1所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于,步骤(3)中,所述多智能体神经网络利用多智能体行动者-评论家框架以及课程学习策略来生成其控制策略;其中,所述课程学习策略包括针对每个智能体的基础训练和三个智能体的联合训练两个阶段:

4.根据权利要求3所述的基于多智能体强化学习的端到端码率自适应控制方法,其特征在于...

【专利技术属性】
技术研发人员:陈浩李岳恒郑倩媛马展
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1