基于卷积神经网络的视频双向编码方法技术

技术编号：38331828 阅读：12 留言：0更新日期：2023-07-29 09:14

本发明专利技术涉及一种基于卷积神经网络与条件编码原理的视频双向编码方法，属于视频压缩领域。现有技术中，基于卷积神经网络的方法重点关注相邻帧之间的图像重建，忽视了有损编码带来的图像组（Gop）中的误差累积问题，而且，采用的单向编码方法因为串行计算导致了编码效率低下。本发明专利技术所述的方法构建了一种双向编码模式，将图像组中的中间帧作为关键帧，并行地对前后帧进行预测，并融合了时间语义信息与空间语义信息进一步提高重建帧的质量。采用本发明专利技术所述的方法，可以有效缓解视频编码中误差累积的问题并提高编码效率。的问题并提高编码效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络的视频双向编码方法

[0001]本专利技术属于视频压缩领域，更具体地，涉及一种基于卷积神经网络与条件编码原理的视频双向编码方法。

技术介绍

[0002]视频已经成为信息时代人们生活和工作的重要需求。近来，高分辨率视频的广泛应用导致视频流占用的比特数激增，给传输带宽和存储内存带来了巨大的负担。因此，高压缩率下的视频压缩技术成为一个重要的研究课题。传统的基于手工设计的视频编码标准表现出良好的性能，但在发展中遇到了性能提升的瓶颈，原因在于各个模块一般基于人工设计的统计先验模型，而实际应用中的视频通常内容多样，无法通过简单设计的模块高效表达[贾川民,马海川,杨文瀚等.视频处理与压缩技术[J].中国图象图形学报,2021,26(06):1179
‑
1200.]。
[0003]受益于深度学习强大的特征提取能力，许多基于深度学习的端到端视频压缩方法被提出。Lu等人遵循传统方法中的预测编码框架，首先提出了可以完全端到端进行优化的深度视频编码框架，其中所有的模块都由卷积神经网络组成[Lu G, Ouyang W, Xu D, et al. Dvc: An end
‑
to
‑
end deep video compression framework[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 11006
‑
>11015.]。Hu等人引入了可变形卷积，并将主要操作放在特征空间上进行，进一步提高了压缩性能[Hu Z, Lu G, Xu D. FVC: A new framework towards deep video compression in feature space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1502
‑
1511.]。随后，Hu等人采用由粗到细的策略来获得更准确的运动向量，并提出了两种超先验引导模式预测方法，以较低的比特成本压缩运动和残差信息[Hu Z, Lu G, Guo J, et al. Coarse
‑
to
‑
fine deep video coding with hyperprior
‑
guided mode prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5921
‑
5930.]。深度视频压缩的另一种框架是条件编码。Li等人提出了第一个深度条件编码的框架，它通过卷积神经网络提取视频中人眼无法识别的语义信息，以此为条件将视频编码为码流[Li J, Li B, Lu Y. Deep contextual video compression[J]. Advances in Neural Information Processing Systems, 2021, 34: 18114
‑
18125.]。Sheng等人通过考虑多尺度时间语义信息进一步扩展了条件编码的框架[Sheng X, Li J, Li B, et al. Temporal context mining for learned video compression[J]. IEEE Transactions on Multimedia, 2022.]。Li等人在此基础上提出了混合时空信息的熵模型[Li J, Li B, Lu Y. Hybrid spatial
‑
temporal entropy modelling for neural video compression[C]//Proceedings of the 30th ACM International Conference on Multimedia. 2022: 1503
‑
1511.]，在压缩性能的表现上首次超过了最新的H.266编码标准。
[0004]尽管现有的深度视频编码方法取得了较好的性能，但仍存在一些公共的问题。首
先是上述两种编码框架均属于有损编码，因此在编码过程中存在误差累积的问题，限制了性能的进一步提升。其次是现有的方法在编码过程中只能串行处理数据，随着模型大小的增加导致了编码效率逐渐降低。

技术实现思路

[0005]针对现有技术中存在的缺陷，本专利技术的目的是提供一种基于卷积神经网络的视频双向编码方法，将图像组中的中间帧作为关键帧，并行地对前后帧进行预测，有效地缓解了视频编码中误差累积的问题并提高编码效率。此外，融合了时间语义信息与空间语义信息进一步提高了重建帧的质量。
[0006]为达到以上目的，本专利技术采用的技术方案是：一种基于卷积神经网络的视频双向编码方法，包括以下步骤：
[0007]（1）双向运动估计
[0008]将视频序列分为多个图像组，以每个图像组中的中间帧为边界将图像组分为两个部分。第一个部分按照从中间帧到第一帧的顺序进行反向运动估计，第二个部分按照从中间帧到最后一帧的顺序进行正向运动估计。构建基于深度学习的运动估计网络，采用金字塔结构，并预训练好权重，并行地计算出两个方向的运动矢量；
[0009]（2）时空语义的生成
[0010]构建时间语义挖掘神经网络，以参考帧与步骤（1）生成运动矢量作为输入，提取出时间语义信息。再构建空间语义生成神经网络，先对原始帧三个通道进行平均池化操作，计算各个像素的空间权重，再经过卷积层学习更新该权重，并使用sigmoid函数保证权重为非负值，最后经过一个1
×
1卷积，直接从参考帧中提取空间语义信息。再构建语义融合神经网络，融合两种信息；
[0011]（3）熵编码
[0012]以步骤（2）中生成的语义为条件，原始帧被编码为潜在向量。潜在向量与步骤（1）中生成的运动矢量经过熵模型被估计出均值与方差，并在算术编码与算术解码后被编码为二进制码流，用于存储与传输；
[0013]（4）解码特征的生成
[0014]构建基于深度学习的解码器，将步骤（3）编码的潜在向量解码成解码特征；
[0015]（5）重构特征与重构帧的生成
[0016]构建基于深度学习的帧生成器，由2个u形神经网络连接成w形神经网络，以步骤（4）生成的解码特征为输入先生成更高维度的重构特征，再生成最终的重构帧，并与原始帧计算损失函数，更新整个模型的权重。
[0017]本专利技术的效果在于：采用本专利技术所述的方法，在进行视频编码时，可以有效缓解视频编码中误差累积的问题并提高编码效率。此外，本专利技术所述的方法可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的视频双向编码方法，包括下列步骤：（1）双向运动估计将视频序列分为多个图像组，以每个图像组中的中间帧为边界将图像组分为两个部分。第一个部分按照从中间帧到第一帧的顺序进行反向运动估计，第二个部分按照从中间帧到最后一帧的顺序进行正向运动估计。构建基于深度学习的运动估计网络，并行地计算出两个方向的运动矢量；（2）时空语义的生成构建时间语义挖掘神经网络，以参考帧与运动矢量作为输入，提取出时间语义信息。再构建空间语义生成神经网络，直接从参考帧中提取空间语义信息。再构建语义融合神经网络，融合两种信息；（3）熵编码以步骤（2）中生成的语义为条件，原始帧被编码为潜在向量。潜在向量与步骤（1）中生成的运动矢量经过熵编码被编码为二进制码流，用于存储与传输；（4）重构特征与重构帧的生成构建基于深度学习的解码器与帧生成器，将步骤（3）编码的潜在向量先...

【专利技术属性】
技术研发人员：杨洋，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人