基于人脸复原的视频会议框架制造技术

技术编号:35464504 阅读:30 留言:0更新日期:2022-11-05 16:06
包括一种包括计算机代码的方法和装置,所述计算机代码配置为使得一个或多个处理器执行以下操作:获取视频数据;从所述视频数据的至少一帧中检测至少一个人脸;从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标特征集合;以及至少部分地由神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。据进行编码。据进行编码。

【技术实现步骤摘要】
【国外来华专利技术】基于人脸复原的视频会议框架
相关申请的交叉引用
[0001]本申请要求于2021年1月6日提交的美国临时申请63/134,522和于2021年9月30日提交的美国申请17/490,103的优先权,这些专利申请的全部内容通过引用并入本文中。


[0002]本公开涉及与人脸复原(或人脸幻构)有关的视频会议,其可基于界标特征将真实细节从真实低质量(low

quality,LQ)人脸复原到高质量(high

quality,HW)人脸。

技术介绍

[0003]国际标准化组织(ISO)/国际电工委员会(IEC)/电气和电子工程师协会(IEEE)正在积极地寻找基于AI的视频编码技术,尤其地关注基于深度神经网络(Deep Neural Network,DNN)的技术。已经成立了各种特设小组来研究神经网络压缩(Neural Network Compression,NNR)、机器视频编码(Video Coding for Machine,VCM)、基于神经网络的视频编码(Neural Network

based Video Coding,NNVC)等。中国新一代人工智能产业技术创新战略联盟(AITISA)和数字音视频编解码技术标准工作组(AVS)还建立了相应的专家组来研究类似技术的标准化。
[0004]视频会议最近变得越来越重要,这通常需要低带宽传输来支持多个终端用户的联合会议。与通常的视频压缩任务相比,会议场景中的视频主要具有类似的内容,即,作为视频的主要对象并且占据整个场景的主要部分的一个或几个说话的人。不受约束的背景可以是任意复杂的、室内或室外,但这不太重要。最近,英伟达(Nvidia)公司的Maxine视频会议平台提出了基于人脸重演技术的基于AI的框架。从DNN中提取2D或3D人脸界标(例如鼻子、下巴、眼睛、比例、位置、皱纹、耳朵、几何形状等中的任何一个或多个)(在本文中,“人脸界标”和“人脸界标特征”可认为是可互换的术语),以采集人类面部的姿态和情绪信息。将这种特征与以低频计算以采集人脸的形状和纹理的高质量特征一起发送到解码器侧,在解码器侧通过根据来自每个复原帧的姿态和表达信息传送形状和纹理来重建高质量人脸。这种框架大大减少了传输比特消耗,因为对于大多数帧,不是传输原始像素,而是仅传输与姿态和表达相关的界标特征。然而,基于重新设定的框架不能保证原始人脸外观的保真度,并且在许多情况下可能导致戏剧性的伪影。例如,该框架通常对遮挡、大运动等非常敏感,并且不能在实际的视频会议产品中稳健地使用。
[0005]因此,还存在技术缺陷,包括缺乏可压缩性、准确性,以及在其他方面与神经网络相关的信息的不必要丢弃。

技术实现思路

[0006]根据示例性实施例,包括一种方法和装置,所述方法和装置包括存储器和一个或多个处理器,所述存储器配置为存储计算机程序代码,所述一个或多个处理器配置为访问计算机程序代码并按照计算机程序代码的指示操作。所述计算机程序代码包括:获取代码,
配置为使得所述至少一个处理器获取视频数据;检测代码,配置为使得所述至少一个处理器从所述视频数据的至少一帧中检测至少一个人脸;确定代码,配置为使得所述至少一个处理器从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标集合;以及编码代码,配置为使得所述至少一个处理器使得至少部分地由神经网络基于确定的所述人脸界标集合对所述视频数据进行编码。
[0007]根据示例性实施例,所述视频数据包括所述视频数据的已编码码流,并且确定所述人脸界标集合包括对至少一个下采样序列进行上采样,所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。
[0008]根据示例性实施例,所述计算机程序代码还包括进一步确定代码,配置为使得所述至少一个处理器确定扩展人脸区域(Extended Face Area,EFA),所述扩展人脸区域包括从在所述视频数据的所述至少一帧中检测到的所述至少一个人脸的区域扩展的边界区域;以及从所述EFA确定EFA特征集合;以及进一步编码代码,配置为使得所述至少一个处理器使得至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。
[0009]根据示例性实施例,确定所述EFA和确定所述EFA特征集合包括对所述至少一个下采样序列进行上采样,所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。
[0010]根据示例性实施例,确定所述EFA和确定所述EFA特征集合还包括:通过对抗生成网络重建所述EFA特征,所述EFA特征中的每一个分别对应于与所述人脸界标特征集合中的所述人脸界标特征中的一个。
[0011]根据示例性实施例,至少部分地由所述神经网络基于确定的所述人脸界标集合对所述视频数据进行编码还包括:通过聚合所述人脸界标集合、所述已重建的EFA特征和通过对所述至少一个下采样序列进行上采样而获取的上采样序列,至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。
[0012]根据示例性实施例,来自所述视频数据的所述至少一帧的所述至少一个人脸被确定为是所述视频数据的所述至少一帧中的多个人脸中的最大的人脸。
[0013]根据示例性实施例,所述确定代码还配置为使得所述处理器:针对所述视频数据的所述至少一帧中的所述多个人脸中的每一个,从所述视频数据的所述至少一帧中确定除了所述至少一个人脸的所述人脸界标特征集合之外的多个人脸界标特征集合,以及所述编码代码还配置成使得所述处理器:至少部分地由所述神经网络基于确定的所述人脸界标集合和确定的所述多个人脸界标特征集合对所述视频数据进行编码。
附图说明
[0014]所公开的主题的其它特征、性质和各种优点将从以下详细描述和附图中更明显,其中:
[0015]图1是根据实施例的示意图的简化图示。
[0016]图2是根据实施例的示意图的简化图示。
[0017]图3是根据实施例的示意图的简化图示。
[0018]图4是根据实施例的示意图的简化图示。
[0019]图5是根据实施例的图的简化图示。
[0020]图6是根据实施例的图的简化图示。
[0021]图7是根据实施例的图的简化图示。
[0022]图8是根据实施例的图的简化图示。
[0023]图9A是根据实施例的图的简化图示。
[0024]图9B是根据实施例的图的简化图示。
[0025]图10是根据实施例的流程图的简化图示。
[0026]图11是根据实施例的流程图的简化图示。
[0027]图12是根据实施例的框图的简化图示。
[0028]图13是根据实施例的框图的简化图示。
[0029]图14是根据实施例的示意图的简化图示。
具体实施方式
[0030]下面讨论的所提出的特征可以单独使用或以任何顺序组合。此外,实施例可以由处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现。在一个示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于视频编码的方法,由至少一个处理器执行,所述方法包括:获取视频数据;从所述视频数据的至少一帧中检测至少一个人脸;从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标特征集合;以及至少部分地由神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。2.根据权利要求1所述的方法,其特征在于,所述视频数据包括所述视频数据的已编码码流。3.根据权利要求2所述的方法,其特征在于,确定所述人脸界标特征集合包括对至少一个下采样序列进行上采样,所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:确定扩展人脸区域EFA,所述扩展人脸区域包括从在所述视频数据的所述至少一帧中检测到的所述至少一个人脸的区域扩展的边界区域;从所述EFA确定EFA特征集合;以及至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行进一步编码。5.根据权利要求4所述的方法,其特征在于,确定所述EFA和确定所述EFA特征集合包括对所述至少一个下采样序列进行上采样,所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。6.根据权利要求5所述的方法,其特征在于,确定所述EFA和确定所述EFA特征集合还包括:通过对抗生成网络重建所述EFA特征,所述EFA特征中的每一个分别对应于所述人脸界标特征集合中的所述人脸界标特征中的一个。7.根据权利要求6所述的方法,其特征在于,至少部分地由所述神经网络基于确定的所述人脸界标集合对所述视频数据进行编码还包括:通过聚合所述人脸界标集合、所述已重建的EFA特征和通过对所述至少一个下采样序列进行上采样而获取的上采样序列,至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。8.根据权利要求7所述的方法,其特征在于,来自所述视频数据的所述至少一帧的所述至少一个人脸被确定为是所述视频数据的所述至少一帧中的多个人脸中的最大的人脸。9.根据权利要求7所述的方法,其特征在于,所述方法还包括:针对所述视频数据的所述至少一帧中的所述多个人脸中的每一个,从所述视频数据的所述至少一帧中确定除了所述至少一个人脸的所述人脸界标特征集合之外的多个人脸界标特征集合;以及至少部分地由所述神经网络基于确定的所述人脸界标集合和确定的所述多个人脸界标特征集合对所述视频数据进行编码。10.根据权利要求9所述的方法,其特征在于,所述神经网络包括深度神经网络DNN。11.一种用于视频编码的装置,所述装置包括:至少一个存储器,配置为存储计算机程序代码;至少一个处理器,配置为访问所述计算机程序代码,以及按照所述计算机程序代码的指示操作,所述计算机程序代码包括:
获取代码,配置为使得所述至少一个处理器获取视频数据;检测代码,配置为使得所述至少一个处理器从所述视频数据的至少一帧中检测至少一个人脸;确定代码,配...

【专利技术属性】
技术研发人员:蒋薇王炜刘杉
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1