基于知识蒸馏的实时视频人脸卡通化方法、设备及介质技术

技术编号:34604823 阅读:63 留言:0更新日期:2022-08-20 09:08
本发明专利技术涉及一种基于知识蒸馏的实时视频人脸卡通化方法、设备及介质,该方法包括以下步骤:步骤S1、采用图像语义分割DeepLabv3+网络进行人像分割;步骤S2、通过特征提取模块提取人脸特征;步骤S3、采用Soft

【技术实现步骤摘要】
基于知识蒸馏的实时视频人脸卡通化方法、设备及介质


[0001]本专利技术涉及人脸卡通化领域,尤其是涉及一种基于知识蒸馏的实时视频人脸卡通化方法、设备及介质。

技术介绍

[0002]卡通画一直以幽默、风趣的艺术效果和鲜明直接的表达方式为大众所喜爱。近年来,越来越多的人开始在社交网络中使用卡通画作为一种表意的文化载体。图像卡通风格渲染尤其是视频图像卡通风格渲染是一项具有挑战性的任务,其目的是将真实视频图像转换为卡通风格的非真实感图像,同时保持原视频图像的语义内容和纹理细节。
[0003]目前,视频卡通化任务的主要难点:
[0004]1)实时性不高:现有的方法大多针对图片卡通化;
[0005]2)数据获取难度大:绘制风格精美且统一的卡通画耗时较多、成本较高,且转换后的卡通画和原照片的脸型及五官形状有差异,因此不构成像素级的成对数据,难以采用基于成对数据的图像翻译(Paired Image Translation)方法。
[0006]3)照片卡通化后容易丢失身份信息:基于非成对数据的图像翻译(UnpairedI mage Translation)方法中的循环一致性损失(Cycle Loss)无法对输入输出的id进行有效约束。
[0007]深度神经网络因其较高的学习能力被应用到图像卡通风格渲染中,有着很高的优势,但是,这种方法通常难以在转换图像全局风格和保持图像局部的细节语义内容之间取得良好的平衡,易导致风格化程度不足或者丢失图像中的语义细节,产生人工痕迹(Artifacts)。此外,现有的方法难以满足视频卡通化的实时性要求。
[0008]针对上述视频人脸卡通化存在的、实时性不高的缺陷,需要设计一种实时视频人脸卡通化方法。

技术实现思路

[0009]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种实时性高的基于知识蒸馏的实时视频人脸卡通化方法、设备及介质。
[0010]本专利技术的目的可以通过以下技术方案来实现:
[0011]根据本专利技术的第一方面,提供了一种基于知识蒸馏的实时视频人脸卡通化方法,该方法包括以下步骤:
[0012]步骤S1、采用图像语义分割DeepLabv3+网络进行人像分割;
[0013]步骤S2、通过特征提取模块提取人脸特征;
[0014]步骤S3、采用Soft

AdaLIN归一化方法,将人脸特征与卡通特征相融合;
[0015]步骤S4、基于融合后的特征,通过特征重建模块生成卡通图像;
[0016]步骤S5、基于知识蒸馏模型,将步骤S1~S4训练得到的模型作为教师模型,基于损失函数,通过教师模型训练学生模型,实时生成人脸卡通化视频。
[0017]优选地,所述步骤S1中的图像语义分割DeepLabv3+网络包括编码器模块和解码器模块;
[0018]所述编码器模块采用深度卷积神经网络DCNN;
[0019]所述解码器模块将底层特征与高层特征进一步融合,进行人像边界分割。
[0020]优选地,所述深度卷积神经网络DCNN包含用于引入多尺度信息的带孔洞卷积的空间金字塔池化层ASPP。
[0021]优选地,所述步骤S2中特征提取模块包含堆叠的Hourglass模块,以及下采样模块和残差模块;
[0022]采用堆叠的Hourglass模块,渐进地将输入图像抽象成易于编码的形式;
[0023]所述残差模块对人脸特征进行编码并提取用于后续特征融合的统计信息。
[0024]优选地,所述步骤S3具体为:
[0025]采用Soft

AdaLIN归一化方法,通过可学习的权重对输入人脸图像的编码特征统计信息和卡通特征统计信息进行加权融合,再以AdaLIN的方式反规范化解码特征,保留输入图像的语义内容。
[0026]优选地,所述步骤S4具体为:
[0027]所述特征重建模块采用与特征提取部分对称的结构,包括解码模块、上采样模块和Hourglass模块,依据编码特征生成对应的卡通图像。
[0028]优选地,所述步骤S5中的损失函数表达式为:
[0029]Loss=loss1+loss2[0030]其中,loss1为硬标签与预测值之间的损失,loss2为教师模型输出的软标签与预测值之间的损失;所述预测值为生成的卡通图像数据。
[0031]优选地,所述硬标签为开源数据集。
[0032]根据本专利技术的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
[0033]根据本专利技术的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
[0034]与现有技术相比,本专利技术具有以下优点:
[0035]1)本专利技术设计的基于知识蒸馏的实时视频人脸卡通化方法,依次经过人像分割、特征提取、特征重合和特征重建,采用知识蒸馏的方法完成视频的实时处理,从而实时生成人脸卡通化视频;
[0036]2)本专利技术采用图像语义分割DeepLabv3+网络进行人像分割,通过进一步融合底层特征与高层特征,去除了背景特征,能够有效识别人脸区域,提高了分割边界准确度;
[0037]3)本专利技术采用包含堆叠的Hourglass模块,以及下采样模块和残差模块的特征提取模块,在特征提取的同时保持了语义信息位置不变,提高了特征提取的精度;
[0038]4)本专利技术采用的Soft

AdaLIN归一化方法,通过可学习的权重来加权平均卡通特征和编码特征的统计量,自适应程度高。
附图说明
[0039]图1为本专利技术的方法流程图;
[0040]图2为DeepLabv3+图像分割框架;
[0041]图3为知识蒸馏结构示意图。
具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例
[0043]实施例
[0044]如图1所示,本实施例给出了一种基于知识蒸馏的实时视频人脸卡通化方法,该方法包括以下步骤:
[0045]步骤S1、采用图像语义分割DeepLabv3+网络进行人像分割;
[0046]步骤S2、通过特征提取模块提取人脸特征;
[0047]步骤S3、采用Soft

AdaLIN归一化方法,将人脸特征与卡通特征相融合;
[0048]步骤S4、基于融合后的特征,通过特征重建模块生成卡通图像;
[0049]步骤S5、基于知识蒸馏模型,将步骤S1~S4训练得到的模型作为教师模型,基于损失函数,通过教师模型训练学生模型,实时生成人脸卡通化视频。
[0050]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的实时视频人脸卡通化方法,其特征在于,该方法包括以下步骤:步骤S1、采用图像语义分割DeepLabv3+网络进行人像分割;步骤S2、通过特征提取模块提取人脸特征;步骤S3、采用Soft

AdaLIN归一化方法,将人脸特征与卡通特征相融合;步骤S4、基于融合后的特征,通过特征重建模块生成卡通图像;步骤S5、基于知识蒸馏模型,将步骤S1~S4训练得到的模型作为教师模型,基于损失函数,通过教师模型训练学生模型,实时生成人脸卡通化视频。2.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法,其特征在于,所述步骤S1中的图像语义分割DeepLabv3+网络包括编码器模块和解码器模块;所述编码器模块采用深度卷积神经网络DCNN;所述解码器模块将底层特征与高层特征进一步融合,进行人像边界分割。3.根据权利要求2所述的一种基于知识蒸馏的实时视频人脸卡通化方法,其特征在于,所述深度卷积神经网络DCNN包含用于引入多尺度信息的带孔洞卷积的空间金字塔池化层ASPP。4.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法,其特征在于,所述步骤S2中特征提取模块包含堆叠的Hourglass模块,以及下采样模块和残差模块;采用堆叠的Hourglass模块,渐进地将输入图像抽象成易于编码的形式;所述残差模块对人脸特征进行编码并提取用于后续特征融合...

【专利技术属性】
技术研发人员:吴强季晓枫
申请(专利权)人:上海幻维数码创意科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1