基于视频内容特征的自适应比特率方法技术

技术编号：40581026 阅读：5 留言：0更新日期：2024-03-06 17:24

本发明专利技术公开了一种基于视频内容特征的自适应比特率方法，其特征在于，包括如下步骤：1）制作网络带宽数据集；2）制作视频集及视频编码；3）计算视频内容特征；4）定义用户体验质量QoE；5）整合C3D与深度强化学习网络；6）训练深度强化学习网络；7）采用模型在服务端进行视频块自适应比特率选择。这种方法采用深度强化学习并行训练技术结合网络状态、播放器状态和视频质量多方法评价融合方法VMAF评估方式，能提高用户体验质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及3维卷积神经网络c3d(convolutional neural network，简称c3d)、近端策略优化ppo(proximal policy optimization，简称ppo)、深度强化学习drl(deepreinforcement learning，简称drl)技术，具体是一种基于视频内容特征的自适应比特率方法。

技术介绍

1、由于网络技术、设备能力和音视频压缩方案的进步，视频传输在过去十年中已发展成为当今互联网流量的主要部分。如今，http adaptive streaming(has)视频交付模式成为了互联网视频流量的主要传输模式，has交付模式已经提出多种类别，为了避免市场的碎片化，mpeg和3gpp标准化了http动态自适应流(dynamic adaptive streaming overhttp，dash),并将自适应逻辑的实现留给了第三方。此外，美国思科公司发布的visualnetworking index(vni)白皮书指出，截止2022年底，视频流量占到了全球网络总流量的82％，给底层承载网络带来了巨大的挑战。因此，在最大化用户体验质量的目标下，如何设计一个强大的自适应比特率abr(adaptive bitrate,简称abr)算法成为了关键。

2、dash自适应传输框架主要分为客户端和服务端。在服务器端，视频文件被分割成多个固定时长的视频块，并编码为不同比特率级别，高级别代表更高的视频质量。媒体表示描述mpd(media presentation description,简

3、随着网络状态和视频内容的多样化，如何在多变的网络状态和多样的视频内容下设计更有效的自适应比特率算法，成为了提高用户体验质量qoe(quality of experience,简称qoe)的关键。当前的视频流传输方案，主要关注于传输过程中的技术参数和网络条件，如带宽、丢包率和延迟等，然而，这些方案未能充分考虑到视频内容本身对用户感知体验的影响。事实上，视频内容的特征，如清晰度、运动流畅性、颜色饱和度等，对于用户的主观感受至关重要。在现有的研究中，对于如何将视频内容特征与用户体验质量进行量化和分析的探索仍然相对不足。

技术实现思路

1、本专利技术的目的是针对现有技术的不足，而提供一种基于视频内容特征的自适应比特率方法。这种方法采用深度强化学习并行训练技术结合网络状态、播放器状态和视频质量多方法评价融合方法vmaf(video multi-method assessment fusion,简称vmaf)评估方式，能提高用户体验质量。

2、实现本专利技术目的的技术方案为：

3、一种基于视频内容特征的自适应比特率方法，包括如下步骤：

4、1)制作网络带宽数据集：按照实际任务情况将数据集划分为两类，两类数据集分别为稳定带宽下的数据集和波动带宽下的带宽数据集，在不同类别下的数据集中，又分为训练数据集和测试数据集，训练数据集和测试数据集比特为2：1，其中，带宽轨迹语料来自于fcc提供的带宽数据集和norway收集的3g/hsdp移动网络数据集，稳定带宽轨迹语料是从上下带宽差异不超过50kb的样本中随机抽样而来，fcc数据集包含超过100万个吞吐量记录、每个记录的粒度为5秒，共记录2100秒以上的平均吞吐量；网络轨迹包含1000个轨迹，每个轨迹的持续时间为320秒；hsdpa数据集包括30分钟的吞吐量测量，这些吞吐量测量是采用移动设备生成的，这些移动设备是在移动(例如，公共汽车、火车等)过程中进行网络活动的，技术方案重新格式化两个数据集的吞吐量轨迹，以便于与mahimah网络仿真工具兼容，技术方案采用80％的网络轨迹的随机样本作为仿真训练集，剩下的20％作为所有abr算法的仿真测试集；

5、2)制作视频集及视频编码：根据实际任务需要获取视频集,将视频按照实际任务情况，向下编码为多个不同比特率的视频：视频集根据实际任务需要自行选择，采用dash-246javascript参考客户端的“big buck bunny”视频作为源视频进行评估，视频的分辨率为1080p、帧率为30fps，采用h.264/mpeg-4编解码器将源视频分别以1080p、720p、480p、360p、240p和144p的分辨率进行编码，此外，视频被分为60个块、每个视频块时长为4s、视频总时长为240s，同时，为了让视频的每一个视频块的帧对齐，调整剪切视频的命令，使得每个视频块的开始帧和结束帧能够对齐；

6、3)计算视频内容特征:采用3d cnn网络计算不同分辨率下所有视频块的视频特征，提取视频内容特征采用c3d技术，c3d是一种简单而有效的时空特征学习方法，使用在大规模监督视频数据集上训练的深度三维卷积网络，c3d采用3d卷积滤波器、并且所有的3d卷积滤波器都是3×3×3、步长为1×1×1，能够很好的学习到视频内容的时空特征，在近几年的最佳方法中，有着相当不错的准确率，在ucf101数据集上仅使用10个维度就获得了52.8％的准确度，将各个分辨率的视频块输入至c3d网络中，每一个视频块都随机剪裁为16×122×122大小的视频块，其中，由于视频块是时长为4s、帧率为30fps的视频块，固定步长随机抽取16个视频帧组合成一个c3d网络的输入，c3d的输出即为视频块的内容特征向量，为了充分发挥设备性能，加快视频内容特征提取速度，采用python并行计算；

7、4)定义用户体验质量qoe：采用libvmaf_v0.6.1.json计算不同分辨率下所有视频块的视频质量多方法评价融合方法vmaf(video multi-method assessment fusion,简称vmaf)分数：视频块的vmaf分数采用h.264/mpeg-4code集成的libvmaf来计算所有视频块的vmaf分数，采用libvmaf文件版本libvmaf_v0.6.1.json.由于视频块是以{1080p,720p,480p,360p,240p,144p}的分辨率进行编码的，所以使用了libvmaf的cubic算法将低分辨率的视频块映射到未损失视频块的分辨率来计算视频块的vmaf分数，未损失视频块的分数设置为100，同时，为了充分利用设备性能，降低计算所有视频块的vmaf的时间，采用pytho本文档来自技高网...

【技术保护点】

1.一种基于视频内容特征的自适应比特率方法，其特征在于，包括如下步骤：

【技术特征摘要】

1.一种基于视频内容特征的自适应比特...

【专利技术属性】
技术研发人员：王勇，黄桂琳，刘世嘉，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人