一种基于强化学习的I帧目标带宽分配方法及装置制造方法及图纸

技术编号：27616420 阅读：18 留言：0更新日期：2021-03-10 10:48

本发明专利技术提供了一种基于强化学习的I帧目标带宽分配方法及装置，包括：S1、将视频序列输入HM编码系统；S2、当HM编码系统给GOP分配目标带宽后，调用强化学习神经网络为当前I帧分配目标带宽；S3、HM编码系统将分配目标带宽用于编码当前I帧数据，并将GOP中剩余帧继续编码，得到完成的GOP数据，将完成GOP数据输入缓冲区；S4、判断视频序列是否完成编码，否则获取下一GOP数据，并返回S2。本发明专利技术的有益效果在于：提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法，该方法可以通过不断感知环境状态，为当前视频序列选择最优的目标带宽，帮助取得更好的视频质量和更小的码率误差。取得更好的视频质量和更小的码率误差。取得更好的视频质量和更小的码率误差。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的I帧目标带宽分配方法及装置

[0001]本专利技术涉及一种视频处理
，尤其是指一种基于强化学习的I帧目标带宽分配方法及装置。

技术介绍

[0002]码率控制算法的目标在于，在一个特定的带宽或存储下提供高质量的压缩序列，它对于维持视频应用的质量，尤其是对于实时性要求较高的系统来说，起着决定性的作用。在视频编码中，平衡视频帧的码率和失真是码率控制的关键问题。现有技术是通过实验数据和研究经验建立数学模型，从而进行带宽分配、量化和参数调整。
[0003]H.265/HEVC的码率控制算法仍然采用传统的两步骤方式——目标带宽分配和量化参数确定。其中，图像级目标带宽分配的关键在于考虑视频帧率失真间的相互依赖关系，分配的带宽权重与目标码率、视频内容特性以及时域预测结构密切相关。
[0004]在HEVC中，目标带宽分配分为GOP级、图像级和CTU级，其中GOP级中有I、P、B三种视频帧类型，I帧为每个GOP的第一个帧，是自带全部信息的独立帧，而P帧和B帧需要依赖其他帧预测得到。当视频序列中存在动作剧烈变化和场景快速切换时，两个I帧的帧间相关性明显降低，从而需要消耗更多的带宽进行编码。现有的图像级目标带宽分配策略是按照目标码率、内容特性和时域预测结构来给图像分配权重，对于上述情况没有针对性的设计，并不能保证有效的处理。基于强化学习的方法则可以从端到端优化目标带宽分配过程，促进性能的进一步提升。因此，我们采用强化学习的方式，希望得到更合理的I帧目标带宽分配策略。

技术实现思路

[0...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的I帧目标带宽分配方法，包括：S1、将视频序列输入HM编码系统；S2、当HM编码系统给GOP分配目标带宽后，调用强化学习神经网络为当前I帧分配目标带宽；S3、HM编码系统将分配目标带宽用于编码当前I帧数据，并将GOP中剩余帧继续编码，得到完成的GOP数据，将完成GOP数据输入缓冲区；S4、判断视频序列是否完成编码，否则获取下一GOP数据，并返回S2。2.如权利要求1所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S2之前，还包括建立训练模型：S21、选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频，按照HM编码系统对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数，并记录各视频的编码信息；S22、将编码信息输入至强化学习神经网络进行强化学习。3.如权利要求2所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S22之中，采用A2C神经网络进行强化学习。4.如权利要求3所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S21之中，还包括获取补充编码信息：S211、通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征，所述多尺度高斯差分融合公式为：其中，(x,y)是空间坐标，σ大小决定图像的平滑程度，σ1＝0.54，σ2＝0.87，σ3＝1.19，w为高斯差分项的权重，w＝0.284，a和b为高斯差分的参数，a＝0.75，b＝0.66；S212、根据σ1生成二维高斯分布矩阵，计算公式为：其中，x和y为高斯核的维度，w1，w2，w3为与人眼视觉特性相关的三个参数，分别为w1＝0.536，w2＝0.277，w3＝0.187；通过计算像素梯度矩阵G
xy
获取当前I帧的边缘特征，像素梯度矩阵的计算公式为：其中，I为灰度图像矩阵，S为Sobel算子，c＝2，图像矩阵坐标系原点在左上角，且x正方向从左到右，y正方向从上到下；S213、通过颜色特征提取公式获取当前I帧的颜色特征，所述颜色特征提取公式为：
其中，h
i,j
表示第i个颜色通道分量中灰度值为j的像素出现的概率，n表示图像灰度级数，d＝1.33；S214、将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息，并输入至强化学习神经网络进行强化学习。5.如权利要求4所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S2之后，还包括结合当前帧编码后的失真度、以及已编码帧的失真度历史信息，采用奖励计算公式对行动网络分配的I帧目标带宽作出评价，所述评价带宽分配的奖励计算公式为：其中，i为帧的序号，N表示已编码帧数，Q
i
表示图像的PSNR值，a＝2，B
i
表示滑动窗口大小，R
i
表示编码带宽数，λ为拉格朗日优化因子值。6.一种基于强化学习的I帧目标带宽...

【专利技术属性】
技术研发人员：王妙辉，黄丽蓉，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人