可交互的多模态风格化二维数字人脸动画生成方法技术

技术编号:39135283 阅读:6 留言:0更新日期:2023-10-23 14:52
本公开提供一种可交互的多模态风格化二维数字人脸动画生成方法,该方法包括:获取预设的语音数据、预设的图像数据以及用户的互动输入文本;根据预设的语音数据和用户的互动输入文本,确定数字人的合成语音;根据预设的图像数据确定数字人在预设年龄段对应的人物外貌图像;根据数字人在预设年龄段对应的人物外貌图像和数字人的合成语音,确定具有音频的二维数字人脸动画;将具有音频的二维数字人脸动画依次进行风格化处理、超分辨率处理后,再与数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。通过本公开简便有效地生成二维数字人脸动画,并且能够以多种风格呈现给用户,提高用户的体验质量。提高用户的体验质量。提高用户的体验质量。

【技术实现步骤摘要】
可交互的多模态风格化二维数字人脸动画生成方法


[0001]本专利技术涉及计算机视觉
,具体地,涉及一种可交互的多模态风格化二维数字人脸动画生成方法。

技术介绍

[0002]随着计算机图形学、人工智能技术的快速发展,数字人的技术取得长足进步,数字人具有逼真的形象、真实的动作以及智能的交互等特点,从影视、医疗、娱乐领域等多个方面融入人们的日常生活中。
[0003]从生成数字人的数据结构分类,数字人包括二维数字人和三维数字人。其中,虽然三维数字人能够更加逼真、全面地还原人物的外貌和细节,但是,三维数字人的数据结构稠密复杂,相对于二维数字人来说,技术尚不成熟。在人们的日常生活中,数字人的形象往往通过图片、视频等二维媒介的形式呈现给用户,三维的数字人通过额外的渲染,往往也借助二维的媒介形式呈现给用户,因此,二维数字人在数字人领域占有举足轻重的地位。
[0004]目前的数字人技术,在设计流程上较为繁琐,耗费大量的人力资源和时间成本,开发设计效率较低,并且,在用户体验角度,一成不变的单一视频风格以及不够清晰的画质影响用户体验。

技术实现思路

[0005]针对现有技术中的缺陷,本公开的目的是提供一种可交互的多模态风格化二维数字人脸动画生成方法。
[0006]为实现上述目的,根据本专利技术的第一方面,提供一种可交互的多模态风格化二维数字人脸动画生成方法,包括:
[0007]获取预设的语音数据、预设的图像数据以及用户的互动输入文本;
[0008]根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音;
[0009]将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像;
[0010]将所述数字人在预设年龄段对应的人物外貌图像和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画;
[0011]将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画;
[0012]将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画;
[0013]将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。
[0014]可选地,所述根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音,包括:
[0015]将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,所述互动文本包括所述用户的互动输入文本和所述预训练的语言模型的应答文本;
[0016]将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征;
[0017]将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音。
[0018]可选地,所述将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,包括:
[0019][0020][0021]其中,表示POST访问请求,T
n
表示在进行第n轮互动时用户的互动输入文本,R
n
表示在进行第n轮互动时所述预训练的语言模型针对用户的互动输入文本的应答文本,TR
n
表示在进行第n轮互动时用户与所述预训练的语言模型的互动文本,URL表示所述预训练的语言模型的端口访问IP地址,POST表示本地主机向所述预训练的语言模型发送POST访问请求的过程,[T
n
,TR
n
‑1,L,TR1]表示POST访问请求的请求体,Chat表示在第n轮互动时所述预训练的语言模型针对所述POST访问请求进行应答的过程。
[0022]可选地,所述将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征,包括:
[0023]F
A
=f(A)
[0024]其中,F
A
表示所述数字人的声音特征,A表示所述预设的语音数据,f表示采用所述预训练的声音克隆模型进行的声音特征提取操作。
[0025]可选地,将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音,包括:
[0026][0027]其中,表示所述数字人的合成语音,Mock表示采用所述声音克隆模型进行的合成语音操作。
[0028]可选地,所述将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像,包括:
[0029]P=SAM(I)
[0030]P=[p1,p2,p3,L,p
k
][0031]其中,P表示所述数字人在各个年龄段对应的人物外貌图像集合,I表示所述预设的图像数据,p
k
表示第k个年龄段对应的人物外貌图像,SAM表示采用所述预训练的年龄转换模型进行年龄转换操作。
[0032]可选地,所述将所述数字人在预设年龄段对应的人物形象和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画,包括:
[0033]p∈P
[0034][0035]其中,p表示所述数字人在预设年龄段对应的人物外貌图像,V表示所述具有音频的二维数字人脸动画,Drive表示采用所述预训练的驱动模型进行的驱动操作。
[0036]可选地,所述将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画,包括:
[0037]V
S
=Net(V,S)
[0038]其中,S表示预设的风格类型集合,V
s
表示所述具有预设风格的二维数字人脸动画,Net表示采用所述预训练的人像卡通化模型进行的风格化处理操作。
[0039]可选地,所述将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画,包括:
[0040]V
VSR

S
=VSR(V
S
)
[0041]其中,V
VSR

R
表示所述经过超分辨率处理的二维数字人脸动画,VSR表示采用所述预训练的视频超分模型进行的超分辨率处理操作。
[0042]可选地,所述将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画,包括:
[0043][0044]其中,V
o
表示所述多模态风格化二维数字人脸动画,表示合成处理操作。
[0045]与现有技术相比,本专利技术实施例具有如下至少一种有益效果:
[0046]通过上述技术方案,本公开通过预设的语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可交互的多模态风格化二维数字人脸动画生成方法,其特征在于,包括:获取预设的语音数据、预设的图像数据以及用户的互动输入文本;根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音;将所述预设的图像数据输入预训练的年龄转换模型,确定所述数字人在预设年龄段对应的人物外貌图像;将所述数字人在预设年龄段对应的人物外貌图像和所述数字人的合成语音输入预训练的驱动模型,确定具有音频的二维数字人脸动画;将所述具有音频的二维数字人脸动画输入预训练的人像卡通化模型进行风格化处理,确定具有预设风格的二维数字人脸动画;将所述具有预设风格的二维数字人脸动画输入预训练的视频超分模型进行超分辨率处理,确定经过超分辨率处理的二维数字人脸动画;将所述经过超分辨率处理的二维数字人脸动画和所述数字人的合成语音进行合成处理,确定多模态风格化二维数字人脸动画。2.根据权利要求1所述的方法,所述根据所述预设的语音数据和所述用户的互动输入文本,确定数字人的合成语音,包括:将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,所述互动文本包括所述用户的互动输入文本和所述预训练的语言模型的应答文本;将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征;将所述数字人的声音特征以及所述互动文本输入所述预训练的声音克隆模型中,确定所述数字人的合成语音。3.根据权利要求2所述的方法,其特征在于,所述将所述用户的互动输入文本输入预训练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,包括:练的语言模型中,确定所述用户和所述预训练的语言模型的互动文本,包括:其中,表示POST访问请求,T
n
表示在进行第n轮互动时用户的互动输入文本,R
n
表示在进行第n轮互动时所述预训练的语言模型针对用户的互动输入文本的应答文本,TR
n
表示在进行第n轮互动时用户与所述预训练的语言模型的互动文本,URL表示所述预训练的语言模型的端口访问IP地址,POST表示本地主机向所述预训练的语言模型发送POST访问请求的过程,[T
n
,TR
n
‑1,L,TR1]表示POST访问请求的请求体,Chat表示在第n轮互动时所述预训练的语言模型针对所述POST访问请求进行应答的过程。4.根据权利要求3所述的方法,其特征在于,所述将所述预设的语音数据输入预训练的声音克隆模型,确定所述数字人的声音特征,包括:F
A
=f(A)其中,F
A...

【专利技术属性】
技术研发人员:周颖杰陈耀栋付一帆林坤杰刘辉
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1