图像的生成、模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39261618 阅读:28 留言:0更新日期:2023-10-30 12:14
本申请公开了一种图像的生成、模型训练方法、装置、电子设备及存储介质。获取目标对象的第一原始图像和用于驱动目标对象动作的目标音频数据,基于目标音频数据,得到目标对象对应的第一渲染图像。从第一渲染图像中裁剪出包括嘴部区域的图像内容的第一子图,将第一子图覆盖拼接到第一原始图像中,得到第一合成图像,通过图像生成模型对第一合成图像进行优化,得到目标图像。在第一合成图像中,第一原始图像的部分能够提供真实且丰富的图像细节,图像生成模型可以基于这些细节信息,优化第一子图中的口腔和皮肤纹理,从而使得目标图像中嘴部区域的图像内容更为准确,可有效提高生成图像的质量。本申请的技术方案可广泛应用于图像处理技术领域。处理技术领域。处理技术领域。

【技术实现步骤摘要】
图像的生成、模型训练方法、装置、电子设备及存储介质


[0001]本申请涉及图像处理
,特别是涉及一种图像的生成、模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]当前,随着人工智能的普及和高速发展,相关应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,数字人(虚拟人)服务可以采用计算机视觉或计算机图形学的技术手段,生成人物图像,使用者可以设定需要输出的音频数据,通过算法驱动数字人的面部,进行表情以及口型的动作变化,从而呈现出数字人说话的效果。
[0003]相关技术中,基于音频数据驱动数字人的面部动作,通常采用的方式是对数字人的嘴部区域进行遮盖,提取音频数据的音频特征来生成目标口型的图像,应用到数字人的面部得到完整的图像内容。但是,这种方式由音频数据直接得出嘴部区域的图像,一方面可能导致嘴部区域和整体的图像不协调,另一方面,受到音频数据特征表征能力的影响,可能存在生成的口型和音频数据关联性较差的问题,容易出现音画不同步的现象。
[0004]综上,相关技术中存在的技术问题有待得到改善。
专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像的生成方法,其特征在于,所述方法包括:获取目标对象的第一原始图像和用于驱动所述目标对象动作的目标音频数据;根据所述目标音频数据,确定所述目标对象对应的第一渲染图像;从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像;其中,所述第一子图包括所述目标对象的嘴部区域的图像内容;将所述第一合成图像输入到图像生成模型中,通过所述图像生成模型对所述第一合成图像进行处理,得到目标图像。2.根据权利要求1所述的图像的生成方法,其特征在于,所述目标音频数据通过以下步骤得到:获取第一对象的第一音频数据,将所述第一音频数据确定为目标音频数据;或者,获取第一对象输入的文本信息,根据所述文本信息生成目标音频数据。3.根据权利要求1所述的图像的生成方法,其特征在于,所述根据所述目标音频数据,确定所述目标对象对应的第一渲染图像,包括:提取所述目标音频数据的音素信息;根据所述音素信息,确定所述目标对象对应的表情参数;根据所述表情参数,通过渲染组件对所述目标对象对应的模型进行渲染,根据渲染后的模型得到第一渲染图像。4.根据权利要求1所述的图像的生成方法,其特征在于,所述从所述第一渲染图像中裁剪得到第一子图,并将所述第一子图拼接到所述第一原始图像中,得到第一合成图像,包括:通过关键点检测技术,确定所述第一渲染图像和所述第一原始图像中的目标区域;其中,所述目标区域包括所述目标对象的嘴部区域;对所述第一渲染图像的目标区域进行裁剪,得到所述第一子图;将所述第一子图覆盖到所述第一原始图像的目标区域中,得到第一合成图像。5.根据权利要求1或者4所述的图像的生成方法,其特征在于,所述将所述第一子图拼接到所述第一原始图像中,得到第一合成图像,包括:对所述第一子图进行膨胀操作,以在所述第一子图的至少部分边缘处生成扩张像素带,得到第二子图;其中,所述扩张像素带中的各个像素点的像素值相同,且所述扩张像素带中的各个像素点和所述目标对象的皮肤像素点的像素值不同;将所述第二子图拼接到所述第一原始图像中,得到第一合成图像;或者,对所述第一子图进行插值操作,得到第三子图;将所述第三子图拼接到所述第一原始图像中,得到第一合成图像。6.根据权利要求1所述的图像的生成方法,其特征在于,所述对所述第一合成图像进行处理,得到目标图像,包括:对所述第一合成图像进行卷积处理和下采样处理,得到所述第一合成图像对应的第一特征图;对所述第一特征图进行上采样处理和卷积处理,得到所述第一合成图像对应的第二特征图;根据所述第二特征图,得到目标图像。
7.根据权利要求6所述的图像的生成方法,其特征在于,所述对所述第一特征图进行上采样处理和卷积处理,得到所述第一合成图像对应的第二特征图,包括:对所述第一特征图进行卷积处理和自注意力处理,得到第三特征图;对所述第三特征图进行上采样处理和卷积处理,得到所述第二特征图。8.一种图像生成模型的训练方法,其特征在于,所述方法包括:获取样本对象的第二原始图像和所述样本对象对应的第二渲染图像;其中,所述第二原始图像为所述样本对象在输出第二音频数据时的真实图像,所述第二渲染图像为根据所述第二音频数据得到的样本对象对应的渲染图像;从所述第二渲染图像中裁剪得到第四子图,并将所述第四子图拼接到所述第二原始图像中,得到第二合成图像;其中,所述第四子图包括所述样本对象的嘴部区域的图像内容;将所述第二合成图像输入到图像生成模型中,通过所述图像生成模型对所述第二合成图像进行处理,得到预测图像;根据所述第二原始图像和所述预测图像,确定训练的第一损失值;根据所述第一损失值,对所述图像生成模型的参数进行更新,得到训练好的图像生成模型。9.根据权利要求8所述的图像生成模型的训练方法,其特征在于,所述方法还包括:获取所述第二原始图像的区域标签;其中,所述区域标签用于标识所述第二原始图像中的关键区域,所述关键区域包括所述样本对象的嘴部区域;所述根据所述第二原始图像和所述预测图像...

【专利技术属性】
技术研发人员:林楚铭曹赟罗栋豪邰颖汪铖杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1