【技术实现步骤摘要】
数字分身合成方法、装置、计算机设备及存储介质
[0001]本专利技术涉及数字分身
,尤其是指数字分身合成方法、装置、计算机设备及存储介质。
技术介绍
[0002]现有的技术方案,多采用人工神经网络训练模型,进而合成超写实数字人。技术路线分为两种,第一种是基于大量的多人视频数据训练通用模型,然后对任意目标人物都可快速合成数字分身;第二种是针对目标人物的视频数据进行模型训练,仅对该目标人物可合成数字分身;第一种适用范围更广,但缺乏对真人的细节刻画,唇形、牙齿等常常失真。第二种具有丰富的面部细节,但对单人的模型训练时间很久,使用受限。
[0003]因此,需要一种通用性强、细节完整、合成速度快的技术方案,以实现超写实数字分身的快速合成。
技术实现思路
[0004]本专利技术的目的在于克服现有技术的不足,提供数字分身合成方法、装置、计算机设备及存储介质。
[0005]为了解决上述技术问题,本专利技术采用如下技术方案:
[0006]第一方面,本实施例提供了一种数字分身合成方法,包括以下步骤: ...
【技术保护点】
【技术特征摘要】
1.数字分身合成方法,其特征在于,包括以下步骤:获取多人的视频数据,用于训练判别器;根据判别器训练得到生成器;对生成器进行优化,以得到通用生成器;添加目标人物的视频数据至通用生成器中,以得到微调后的生成器;将目标人物的音频数据输入至微调后的生成器中,以合成得到数字分身。2.根据权利要求1所述的数字分身合成方法,其特征在于,所述获取多人的视频数据,用于训练判别器步骤中,基于神经网络,将多人的视频数据中的人脸分为上、下两个部分,分别提取不同的特征,神经网络包含两部分内容,一个是音频神经网络,另一个是图片神经网络,在处理音频前,首先将音频分割成与视频对应的帧序列,其中音频神经网络,是对音频序列进行处理,获得相应的音频特征,在处理图片前,在鼻翼处将人脸分割为上下两部分,然后训练得到判别器,判别器用于检测面部动态。3.根据权利要求1所述的数字分身合成方法,其特征在于,所述生成器以音频和视频为输入,采用编码
‑
解码器结构,均由二维卷积层堆叠而成,音频编码器将一系列音素特征转换为嵌入向量,与视频帧在时间上保持一致。4.根据权利要求1所述的数字分身合成方法,其特征在于,所述对生成器进行优化,以得到通用生成器步骤中,通过鉴别器优化生成器,以得到通用生成器。5.数字分身合成装置,其特征在于,包括:获取训练单元、训练单元、优化单元、添加单元及输入合成单元;所述获取训练单元,用于获取多人的视频数据,用于训练判别器;所述训练单元,用于根据判别器训练得到生成器;所述优化单元,用于对生成器进行优化,以得到通用生成器;所述添加...
【专利技术属性】
技术研发人员:卢庆华,黄元忠,
申请(专利权)人:深圳市木愚科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。