视频传输方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:38903080 阅读:17 留言:0更新日期:2023-09-22 14:21
本公开提供一种视频传输方法、装置、计算机设备及计算机可读存储介质。实现的方案为:一种视频传输方法,使用视频传输模型,经由视频传输模型的第一部分对多个第一图像帧进行编码,以输出分别与多个第一图像帧对应的多个潜在向量;经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧;在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。使用视频传输模型取代传统的视频编解码,来满足视频会议和直播业务对带宽和画质的需求,在保持低带宽传输需求的同时输出具有高清晰度人脸的视频。清晰度人脸的视频。清晰度人脸的视频。

【技术实现步骤摘要】
视频传输方法、装置、计算机设备及计算机可读存储介质


[0001]本公开涉及视频处理
,尤其涉及视频编解码技术和深度学习领域,特别是涉及一种视频传输方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]近年来,视频会议和直播业务迎来大幅的增长,满足了人们的工作和娱乐需求,已经成为当代人们的一种工作和生活方式。视频传输中有两个重要而亟需解决问题。第一,视频会议和直播业务产生了巨大的视频源流,如何对视频做高效的压缩并减少带宽需求是业界最关注的问题。第二,视频会议和直播业务的用户体验和人脸的质量息息相关,如何在满足带宽需求的同时提供高清视频,增强终端用户的使用或观看体验也是非常重要的技术挑战。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种视频传输方法、装置、计算机设备及计算机可读存储介质。
[0005]根据本公开的一方面,提供一种视频传输方法,使用视频传输模型,视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。
[0006]视频传输方法包括:经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧;经由视频传输模型的第一部分对多个第一图像帧进行编码,以输出分别与多个第一图像帧对应的多个潜在向量;经由第一视频处理装置对多个潜在向量进行打包以生成视频传输信息;经由第二视频处理装置接收视频传输信息以获取多个潜在向量;经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧;以及经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频,其中,经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。
[0007]根据本公开的另一方面,提供一种视频传输装置,使用视频传输模型,视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。
[0008]视频传输装置包括获取模块、编码模块、打包模块、接收模块、解码模块、视频生成模块和人脸修复模块,其中获取模块被配置为经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧;编码模块被配置为经由视频传输模型的第一部分对多个第一图像帧进行编码以输出与多个第一图像帧对应的潜在向量;打包模块被配置为经由第一视频处理装置对多个第一图像帧对应的潜在向量进行打包以生成视频传输信息;接收模块被配置为经由第二视频处理装置接收视频传输信息并获取多个第一图像帧对应的潜在向量;解码
模块被配置为经由视频传输模型的第二部分对多个第一图像帧对应的潜在向量进行解码以输出多个第二图像帧;视频生成模块被配置为经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频;人脸修复模块,被配置为经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。
[0009]根据本公开的另一方面,提供一种计算机设备,包括:至少一个处理器;以及存储器,其上存储有计算机程序,其中,计算机程序在被处理器执行时,使处理器执行本公开如上所提供的方法。
[0010]根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使处理器执行本公开如上所提供的方法。
[0011]根据本公开的实施例,本公开旨在使用视频传输模型取代传统的视频编解码,来满足视频会议和直播业务对带宽和画质的需求,在保持低带宽传输需求的同时输出具有高清晰度人脸的视频。将视频传输模型分成了多个部分,并将其分别部署在第一视频处理装置和第二视频处理装置上,利于视频传输模型产生的潜在向量代替传统的视频编码器获得的编码信息,可以减轻视频会议和直播业务的视频传输带宽压力。
[0012]根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
[0013]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0014]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;图2是图示出根据一个示例性实施例的视频传输方法的流程图;图3是图示出根据示例性实施例的视频传输模型的示意图;图4是图示出根据另一个示例性实施例的视频传输方法的流程图;图5是图示出根据另一个示例性实施例的视频传输模型的示意图;图6是图示出根据示例性实施例的人脸修复模型训练方法的流程图;图7是图示出根据示例性实施例的视频传输装置的示意性框图;图8是示出了可以被用来实施本文所描述的方法的计算机设备的示例配置。
具体实施方式
[0015]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0016]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目
的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0017]在相关技术中,视频编解码(Video Codec)可以分为编码器(Encoder)和解码器(Decoder)。其中编码器将视频帧进行压缩编码;解码器将压缩后的视频帧还原。当前的传统编码器,比如H.264,无法很好的解决视频会议和直播业务对带宽和画质的需求。低带宽意味着高压缩比,会导致视频画质的下降。反之,高画质要求低压缩比甚至无损压缩,将会产生更高的带宽要求。
[0018]基于此,本公开提供了一种视频传输模型,视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。
[0019]视频传输模型的第一部分用于第一视频处理装置,经由视频传输模型的第一部分对多个第一图像帧进行编码,以输出分别与多个第一图像帧对应的多个潜在向量。其中多个第一图像帧来源于待传输的视频。
[0020]视频传输模型的第二部分用于第二视频处理装置,经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧。其中多个第二图像帧可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频传输方法,使用视频传输模型,所述视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分;所述方法包括:经由所述第一视频处理装置获取与待传输的视频对应的多个第一图像帧;经由所述视频传输模型的第一部分对所述多个第一图像帧进行编码,以输出分别与所述多个第一图像帧对应的多个潜在向量;经由所述第一视频处理装置对所述多个潜在向量进行打包以生成视频传输信息;经由所述第二视频处理装置接收所述视频传输信息以获取所述多个潜在向量;经由所述视频传输模型的第二部分对所述多个潜在向量进行解码以输出多个第二图像帧;以及经由所述第二视频处理装置至少基于所述多个第二图像帧生成传输后的视频,其中,经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。2.根据权利要求1所述的方法,其中,所述视频传输模型为训练好的人脸修复模型。3.根据权利要求2所述的方法,其中,所述训练好的人脸修复模型是基于生成式对抗网络被训练的。4.根据权利要求3所述的方法,其中,所述训练包括:获取第一训练数据集,所述第一训练数据集包括第一人脸图像和第二人脸图像,其中,所述第一人脸图像的图像质量低于所述第二人脸图像的图像质量;基于所述第一人脸图像对待训练的人脸修复模型进行训练,以得到第三人脸图像;确定所述第三人脸图像与所述第二人脸图像是否具有一致性;以及响应于确定所述第三人脸图像与所述第二人脸图像具有一致性,获得所述训练好的人脸修复模型。5.根据权利要求4所述的方法,其中,当在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复时,对所述传输模型的第一部分进行二次训练。6.根据权利要求5所述的方法,其中,对所述传输模型的第一部分进行二次训练的步骤包括:获取第二训练数据集,所述第二训练数据集包括所述第一人脸图像、所述第二人脸图像和第一潜在向量,所述第一潜在向量被配置用于表征所述第二人脸图像对应的人脸特征和/或与所述人脸特征有关的特征参数;基于所述第一人脸图像对待训练的传输模型的第一部分进行训练,以得到第二潜在向量;确定所述第二潜在向量与所述第一潜在向量是否具有一致性;以及响应于确定所述第二潜在向量与所述第一潜在向量具有一致性,获得训练好的传输模型的第一部分。7.根据权利要求6所述的方法,其中,
基于训练好的传输模型的第一部分,对所述传输模型的第二部分进行微调。8.根据权利要求4所述的方法,其中,当在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧时,对所述传输模型的第二部分进行二次训练。9.根据权利要求8所述的方法,其中,对所述传输模型的第二部分进行二次训练的步骤包括:获取第三...

【专利技术属性】
技术研发人员:林诗琪张磊高熙和
申请(专利权)人:瀚博半导体上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1