基于双向帧预测的极低码率人脸视频混合压缩方法及系统技术方案

技术编号：34471702 阅读：23 留言：0更新日期：2022-08-10 08:45

本发明专利技术公开了一种针对人脸视频的双向帧预测方法，包括：在时域上采样人脸视频的三帧图像；获得所述三帧图像各自对应的关键点热力图；结合所述三帧图像和所述关键点热力图，重建出中间帧图像。本发明专利技术有助于合成时域上光滑流畅的视频，提升观者的主观体验；本发明专利技术还公开了基于上述方法的一种极低码率的人脸视频混合压缩方法，将传统编码技术能够进行像素级精确恢复的优势与深度学习技术能够基于简略信息进行高质量重建的优势相结合，达到了在极低码率下合成高质量人脸视频的目的。低码率下合成高质量人脸视频的目的。低码率下合成高质量人脸视频的目的。

全部详细技术资料下载

【技术实现步骤摘要】
基于双向帧预测的极低码率人脸视频混合压缩方法及系统

[0001]本专利技术涉及人脸视频压缩领域，特别涉及一种基于双向帧预测的极低码率人脸视频混合压缩方法及系统。

技术介绍

[0002]视频通话是人们日常交流的常见途径，视频通话的使用场景日益增多。在网络质量较差的情况下，视频通话往往会被迫中断，严重影响使用者的通话体验。因此，如何在网络质量较差的情况下，实现稳定的超低码率视频通话是一个研究热点，对人脸视频压缩技术的研究变得日益重要。现有的人脸视频压缩方法可分为两大类:传统的编码方法和基于深度学习的方法。
[0003]传统的视频编码方法具有像素级精确恢复的优势，其中VVC是最先进的标准。与 HEVC相比，VVC在保持相同视觉质量的同时节省了约50％的比特率。然而，以VVC为代表的这些传统方法并没有对视频内容进行区分，而是对所有视频进行了相同方式的压缩，尽管实际上人脸视频的压缩应该有更大的潜力。
[0004]深度学习具有基于简略信息的生成能力，因此在人脸视频压缩中具有很大的潜力。研究人员提出了一些基于深度学习的方法...

【技术保护点】

【技术特征摘要】
1.一种针对人脸视频的双向帧预测方法，其特征在于，包括：在时域上采样人脸视频的三帧图像；获得所述三帧图像各自对应的关键点热力图；结合所述三帧图像和所述关键点热力图，重建出中间帧图像。2.根据权利要求1所述的一种针对人脸视频的双向帧预测方法，其特征在于，所述在时域上采集人脸视频的三帧图像，包括：采集头尾两帧为关键帧图像，表示为F
k1
、F
k2
；用F
k1
和F
k2
预测间隔在两帧之间的中间帧，即非关键帧图像F
t
；所述获得所述三帧图像各自对应的关键点热力图，包括：对于在两帧关键帧之间的非关键帧图像F
t
，利用基于卷积神经网络的关键点提取器提取到的关键点坐标，生成关键点热力图H
t
；对于所述关键帧图像F
k1
、F
k2
，使用基于卷积神经网络的关键点提取器得到关键点热力图H
k1
、H
k2
；结合所述三帧图像和所述关键点热力图，重建出中间帧图像，包括：所述关键帧图像F
k1
、所述关键帧图像F
k1
的关键点热力图H
k1
以及所述非关键帧图像F
t
的关键点热力图H
t
输入到基于卷积神经网络的稠密运动网络中，得到稠密光流T
k1
和遮挡图O
k1
；将所述关键帧图像F
k1
、所述稠密光流T
k1
和所述遮挡图O
k1
输入到基于卷积神经网络的生成器中得到利用关键帧图像F
k1
重建的非关键帧图像F
t1
’
；所述关键帧图像F
k2
、所述关键帧图像F
k2
的关键点热力图H
k2
以及所述非关键帧图像F
t
的关键点热力图H
t
输入到基于卷积神经网络的稠密运动网络中，得到稠密光流T
k2
和遮挡图O
k2
；将所述关键帧图像F
k2
、所述稠密光流T
k2
和所述遮挡图O
k2
输入到基于卷积神经网络的生成器中得到利用关键帧图像F
k2
重建的非关键帧图像F
t2
’
；将非关键帧图像F
t
的关键点热力图H
t
、关键帧图像F
k1
的关键点热力图H
k1
和关键帧图像F
k2
的关键点热力图H
k2
输入到基于卷积神经网络的掩膜预测器得到人脸掩膜M
t
；将人脸掩膜M
t
加权作用于所述非关键帧重建图像F
t1
’
、F
t2
’
上，得到最终重建的的非关键帧重建图像F
t
’
。3.根据权利要求2所述的一种针对人脸视频的双向帧预测方法，其特征在于，所述将关键帧图像F
k1
、所述稠密光流T
k1
和所述遮挡图O
k1
输入到基于卷积神经网络的生成器中得到利用关键帧图像F
k1
重建的非关键帧图像F
t1
’
，或，将关键帧图像F
k2
、稠密光流T
k2
和遮挡图O
k2
输入到基于卷积神经网络的生成器中得到利用关键帧图像F
k2
重建的非关键帧图像F
t2
’
；包括：生成器网络提取关键帧图像的特征；利用稠密光流T
k1
扭曲关键帧图像的特征；将扭曲后的特征与遮挡图相乘；解码经扭曲和遮挡处理后的特征得到最终的非关键帧图像。
4.根据权利要求2所述的一种针对人脸视频的双向帧预测方法，其特征在于，所述非关键帧重建图像F
t
’
...

【专利技术属性】
技术研发人员：宋利，唐安妮，解蓉，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人