当前位置: 首页 > 专利查询>清华大学专利>正文

一种视频的压缩方法技术

技术编号:36382901 阅读:13 留言:0更新日期:2023-01-18 09:45
本申请提供了一种视频的压缩方法,涉及视频处理技术领域。所述方法包括:将视频输入视频压缩模型,得到所述视频的每个视频帧的OAR基元;对所述每个视频帧的OAR基元进行压缩重建,得到压缩后视频;获取所述视频压缩模型输出的所述压缩后视频。出的所述压缩后视频。出的所述压缩后视频。

【技术实现步骤摘要】
一种视频的压缩方法


[0001]本申请涉及视频处理
,特别是涉及一种视频的压缩方法。

技术介绍

[0002]和深度学习融合的生成式重建对于视频的压缩具有重要意义,主要因为:一方面,随着视频媒体网络业务量剧增,出现了许多不同以往的应用场景,例如从标清到高清再到4k和8k,对视频压缩编解码传输能力提出了新的挑战;另一方面,虚拟现实(VR)、增强现实(AR)等新兴多媒体技术的应用,也吸引研究者发展新兴视频编解码方法。生成式重建的编解码码率远小于传统的压缩编解码码率,在视频压缩比上具有较大优势。同时,深度学习在图像处理领域发展迅速,特别在图像检测、分类、表征、生成等方面获得不错成果,为视频的生成式压缩重建提供了技术支持。
[0003]相关技术中,直接对视频的每一视频帧进行生成式压缩重建,然后将每一视频帧按照顺序进行拼接得到进行了压缩的视频。然而,这种方法得到的视频质量较低。

技术实现思路

[0004]鉴于上述问题,本申请实施例提供了一种视频的压缩方法,以便克服上述问题或者至少部分地解决上述问题。
[0005]本申请实施例的第一方面,提供了一种视频的压缩方法,所述方法包括:
[0006]将视频输入视频压缩模型,得到所述视频的每个视频帧的OAR基元;
[0007]对所述每个视频帧的OAR基元进行压缩重建,得到压缩后视频;
[0008]获取所述视频压缩模型输出的所述压缩后视频。
[0009]可选地,所述将视频输入视频压缩模型,得到所述视频的每个视频帧的OAR基元,包括:
[0010]将所述视频输入所述视频压缩模型,提取所述每个视频帧的目标属性基元、目标关系基元和背景向量;
[0011]将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接,得到所述每个视频帧的OAR基元。
[0012]可选地,所述提取所述视频的每个视频帧的目标属性基元、目标关系基元和背景向量,包括:
[0013]对所述每个视频帧进行目标检测,得到目标属性帧、目标关系帧和背景图像帧,所述目标属性帧包括至少一个目标,所述目标关系帧包括至少两个目标,所述背景图像帧不包括目标;
[0014]提取所述目标属性帧的目标属性基元,提取所述目标关系帧的目标关系基元,以及提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量;
[0015]将不为所述目标属性帧的视频帧的目标属性基元设置为0,以及将不为所述目标关系帧的视频帧的目标关系基元设置为0;
[0016]将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接,得到所述每个视频帧的OAR基元,其中,所述OAR基元中的目标属性基元和/或目标关系基元为0或非0。
[0017]可选地,所述提取所述目标属性帧的目标属性基元,包括:
[0018]将所述目标属性帧输入目标属性基元提取模块,所述目标属性基元提取模块对所述目标属性帧进行压缩解码,得到初步属性特征向量;
[0019]对所述初步属性特征向量进行编码,得到所述目标属性帧的均值向量和方差向量;
[0020]根据所述目标属性帧的均值向量和方差向量,构建所述目标属性帧的隐向量分布;
[0021]对所述目标属性帧的隐向量分布进行解码,得到所述目标属性帧的目标属性基元。
[0022]可选地,所述提取所述目标关系帧的目标关系基元,包括:
[0023]将所述目标关系帧输入目标关系基元提取模块,所述目标关系基元提取模块对所述目标关系帧进行压缩解码,得到初步关系特征向量;
[0024]对所述初步关系特征向量进行编码,得到所述目标关系帧的均值向量和方差向量;
[0025]根据所所述目标关系帧的均值向量和方差向量,构建所述目标关系帧的隐向量分布;
[0026]对所述目标关系帧的隐向量分布进行解码,得到所述目标关系基元。
[0027]可选地,所述提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量,包括:
[0028]检测所述目标属性帧和所述目标关系帧中的目标所在位置;
[0029]基于所述目标所在位置,生成所述目标属性帧和所述目标关系帧各自的目标位置掩膜;
[0030]将所述目标属性帧和所述目标属性帧的目标位置掩膜输入背景提取模块,得到所述目标属性帧的背景向量;
[0031]将所述目标关系帧和所述目标关系帧的目标位置掩膜输入所述背景提取模块,得到所述目标关系帧的背景向量;
[0032]将所述背景图像帧输入所述背景提取模块,得到所述背景图像帧的背景向量。
[0033]可选地,所述对所述每个视频帧的OAR基元进行压缩重建,得到压缩后视频,包括:
[0034]将所述每个视频帧的OAR基元输入压缩重建模块,对所述每个视频帧的OAR基元进行多层下采样,得到所述每个视频帧在每层对应的下采样OAR特征;
[0035]对所述每个视频帧在每层对应的OAR特征进行多层上采样,得到所述每个视频帧在每层对应的上采样OAR特征;
[0036]将所述每个视频帧的处于同一层的下采样OAR特征和上采样OAR特征进行拼接,得到所述每个视频帧的拼接后OAR特征;
[0037]对所述每个视频帧的拼接后OAR特征进行解码,得到所述每个视频帧对应的压缩后视频帧;
[0038]根据所述每个视频对应的压缩后视频帧,生成所述压缩后视频。
[0039]可选地,所述视频压缩模型的训练步骤包括:
[0040]将视频样本输入待训练的视频压缩模型,得到压缩后视频样本;
[0041]基于所述视频样本和所述压缩后视频样本的均方误差,建立损失函数;
[0042]基于所述损失函数对所述待训练的视频压缩模型的模型参数进行更新,得到所述视频压缩模型。
[0043]可选地,所述视频压缩模型的训练步骤还包括:
[0044]基于所述视频样本的特征和所述压缩后视频样本的特征之间的差异,对所述待训练的视频压缩模型的模型参数进行更新,得到所述视频压缩模型。
[0045]可选地,所述视频样本包括多个视频帧样本,所述待训练的视频压缩模型包括待训练的目标属性基元提取模块和待训练的目标关系基元提取模块;
[0046]所述将视频样本输入待训练的视频压缩模型,得到压缩后视频样本,包括:
[0047]将所述视频样本输入待训练的视频压缩模型,得到所述视频样本的每个视频帧样本的OAR基元样本,基于所述OAR基元样本得到所述压缩后视频样本,其中,所述OAR基元样本中的目标属性基元样本是所述待训练的目标属性基元提取模块进行提取得到的,所述OAR基元样本中的目标关系基元样本是所述待训练的目标关系基元提取模块进行提取得到的;
[0048]所述视频压缩模型的训练步骤还包括:
[0049]计算所述待训练的目标属性基元提取模块的KL损失函数,以及计算所述待训练的目标关系基元提取模块的KL损失函数;
[0050]基于所述待训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的压缩方法,其特征在于,所述方法包括:将视频输入视频压缩模型,得到所述视频的每个视频帧的OAR基元;对所述每个视频帧的OAR基元进行压缩重建,得到压缩后视频;获取所述视频压缩模型输出的所述压缩后视频。2.根据权利要求1所述的方法,其特征在于,所述将视频输入视频压缩模型,得到所述视频的每个视频帧的OAR基元,包括:将所述视频输入所述视频压缩模型,提取所述每个视频帧的目标属性基元、目标关系基元和背景向量;将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接,得到所述每个视频帧的OAR基元。3.根据权利要求2所述的方法,其特征在于,所述提取所述视频的每个视频帧的目标属性基元、目标关系基元和背景向量,包括:对所述每个视频帧进行目标检测,得到目标属性帧、目标关系帧和背景图像帧,所述目标属性帧包括至少一个目标,所述目标关系帧包括至少两个目标,所述背景图像帧不包括目标;提取所述目标属性帧的目标属性基元,提取所述目标关系帧的目标关系基元,以及提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量;将不为所述目标属性帧的视频帧的目标属性基元设置为0,以及将不为所述目标关系帧的视频帧的目标关系基元设置为0;将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接,得到所述每个视频帧的OAR基元,其中,所述OAR基元中的目标属性基元和/或目标关系基元为0或非0。4.根据权利要求3所述的方法,其特征在于,所述提取所述目标属性帧的目标属性基元,包括:将所述目标属性帧输入目标属性基元提取模块,所述目标属性基元提取模块对所述目标属性帧进行压缩解码,得到初步属性特征向量;对所述初步属性特征向量进行编码,得到所述目标属性帧的均值向量和方差向量;根据所述目标属性帧的均值向量和方差向量,构建所述目标属性帧的隐向量分布;对所述目标属性帧的隐向量分布进行解码,得到所述目标属性帧的目标属性基元。5.根据权利要求3所述的方法,其特征在于,所述提取所述目标关系帧的目标关系基元,包括:将所述目标关系帧输入目标关系基元提取模块,所述目标关系基元提取模块对所述目标关系帧进行压缩解码,得到初步关系特征向量;对所述初步关系特征向量进行编码,得到所述目标关系帧的均值向量和方差向量;根据所所述目标关系帧的均值向量和方差向量,构建所述目标关系帧的隐向量分布;对所述目标关系帧的隐向量分布进行解码,得到所述目标关系基元。6.根据权利要求3所述的方法,其特征在于,所述提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量,包括:检测所述目标属性帧和所述目标关系帧中的目标所在位置;基于所述目标所在位置,生成所述目标属性帧和所述目标关系帧各自的目标位置掩

【专利技术属性】
技术研发人员:温力嘉段一平
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1