【技术实现步骤摘要】
基于Transformer网络的视频比特率阶梯预测方法、系统及设备
[0001]本专利技术涉及计算机
,具体涉及一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备。
技术介绍
[0002]目前,视频比特率阶梯预测在各行各业都有广泛的应用。例如,在视频网络传输领域,需要为每个视频进行不同参数的编码,从而满足特定带宽和设备的播放要求,因为不同带宽需要不同传输速率,不同设备对视频的分辨率需求也不同。但是,对视频提供方而言,需要在保证视频质量的情况下,使用最低的比特率发送视频,也就是说,在保证视频质量的前提下,尽量节省带宽。为了满足此需求,视频提供方需要选择合适的参数对原始视频进行编码。视频编码参数的选择(如码率,分辨率),需要获取待发送视频的比特率阶梯,即对其进行比特率阶梯预测。视频比特率阶梯预测需要满足两个条件:实时性。因为客户对视频的观看一般为实时需求,所以视频提供商需要对客户想观看的视频进行实时播放,这就要求编码参数的确定具有实时性,也就是说比特率阶梯的预测需要具有实时性。
[0003]准确 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述方法包括:S1: 获取目标视频;S2:基于Transformer网络构建视频比特率阶梯预测模型并进行训练,所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块,所述编码器模块由空间域transformer编码器和时间域transformer编码器组成,所述编码器均包括层归一化模块、注意力机制模块以及MLP模块;S3:根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果,所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果包括:基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征,对所述视频特征进行线性变换后输出作为所述编码器的输入特征;基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息的输出特征,所述局部特征和全局特征均包括经空间域transformer编码器获取的视频空间维度特征以及经时间域transformer编码器获取的视频时间维度特征,所述空间维度特征和时间维度特征均根据自主力机制融合为所述输出特征中的时空特征;基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类及所述视频分类对应的视频比特率阶梯,所述视频比特率阶梯包括一一对应的视频分辨率和视频码率。2.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征包括:将含有帧的目标视频中所有单帧视频切分为k个token,单帧视频大小为H*W*C,将所述单帧视频转换成大小为N*(P2C)的子特征,其中P2为每个token对应的分辨率,且满足条件N=HW/P2,在以单一帧数的时间维度上将所述子特征融合为所述视频特征。3.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息的输出特征,其计算公式为:;;其中,x表示经token嵌入模块处理后目标视频的输入特征,Y表示经编码器模块处理后输出的输出特征,表示层归一化处理,表示自注意力机制处理,表示
MLP网络处理,y表示自注意力机制模块计算产生的中间特征。4.根据权利要求3所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,其计算公式为:;;;其中,x表示...
【专利技术属性】
技术研发人员:黄海亮,李仕仁,段志奎,丁一,白剑,梁瑛玮,张海林,鲁和平,李长杰,陈焕然,李乐,王浩,洪行健,冷冬,李尚然,
申请(专利权)人:易方信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。