数字人生成方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号:37603155 阅读:19 留言:0更新日期:2023-05-18 11:54
一种数字人生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。采用上述方案,可以生成带有情绪的数字人,且实现数字人的情绪可编辑化。辑化。辑化。

【技术实现步骤摘要】
数字人生成方法及装置、计算机可读存储介质、终端


[0001]本专利技术涉及计算机
,尤其涉及一种数字人生成方法及装置、存储介质、终端。

技术介绍

[0002]数字人生成任务,是通过一段给定的语音或文字,生成一段说话人为视角中心的数字人视频。数字人具有特定的形象,可被应用于新闻广播,旅游场所介绍,产品服务介绍等领域。
[0003]目前的数字人生成方法有很多种,例如,基于生成对抗网络(Generative Adversarial Network,GAN)或者基于隐式神经场(Neural Radiance Fields,NeRF)等理论的数字人生成方法。这些方法的目的在于尽可能生成质量高清、嘴型与语音对齐的数字人,但无法生成带有情绪的数字人。
[0004]然而,在现实使用场景中,仅能够进行语音表达的数字人已无法满足用户的交互需求。以产品服务介绍应用场景为例,期待生成的数字人不仅能够正确回复用户提出的问题,同时展示出符合场景需求的表情状态,例如,可以基于给定的目标情绪或感知到的用户的情绪,相应地生成与用户共情的数字人,从而使得生成的数字人可以更好的传递情绪,提升用户体验。这样的情绪可编辑的数字人生成方案在医疗康复、自动驾驶、家政服务等领域存在较大需求。但是,目前的数字人生成技术中,尚缺乏可以编辑数字人的情绪的有效方案。

技术实现思路

[0005]本专利技术实施例解决的技术问题是如何生成带有情绪的数字人,且实现数字人的情绪可编辑化。
[0006]为解决上述技术问题,本专利技术实施例提供一种数字人生成方法,包括以下步骤:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。
[0007]可选的,所述目标情绪信息是预设的,或者,所述目标情绪信息是基于所述输入语音和情绪预测模型确定的。
[0008]可选的,在得到所述输入语音对应的数字人图像之后,所述方法还包括:采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数,对所述数字人生成模型进行训练,得到优化后的数字人生成模型;将所述融合矩阵输入至所述优化后的数字人生成模型,得到所述输入语音对应的优化后数字人图像。
[0009]可选的,所述目标情绪信息指示的情绪类型和所述输入语音中包含的情绪类型一致。
[0010]可选的,所述预设的损失函数为:
[0011][0012]其中,L表示所述损失函数,A表示所述数字人图像或所述原始图像在第一方向上的像素点个数,B表示所述数字人图像或所述原始图像在第二方向上的像素点个数,(a,b)表示所述数字人图像或所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点,ch表示像素点的色彩通道,I
g,ch
(a,b)表示所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值,I
ch
(a,b)表示所述数字人图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值。
[0013]可选的,在得到所述输入语音对应的优化后数字人图像之后,所述方法还包括:对多段输入语音分别对应的优化后数字人图像进行拼接处理,得到数字人生成视频。
[0014]可选的,对所述目标情绪信息进行编码得到情绪编码矩阵,包括:基于预设的情绪编码长度,对所述目标情绪信息进行预编码,得到多组情绪子编码,每组情绪子编码中包含两个相同的情绪子编码;对于每组情绪子编码,确定其中一个情绪子编码的正弦值,以及确定另一个情绪子编码的余弦值,从而确定各个情绪子编码对应的情绪编码;基于所得到的多个情绪编码,确定所述情绪编码矩阵。
[0015]可选的,采用下述公式,对于每组情绪子编码,确定其中一个情绪子编码的正弦值,以及确定另一个情绪子编码的余弦值,从而确定各个情绪子编码对应的情绪编码,并基于所得到的多个情绪编码,确定所述情绪编码矩阵:
[0016]P=[sin(20πE),cos(20πE),sin(21πE),cos(21πE)

,sin(2
L
‑1πE),cos(2
L
‑1πE)];
[0017]其中,P表示所述情绪编码矩阵,E表示所述目标情绪信息,L表示预编码得到的情绪子编码的组数,2
L
‑1πE表示第L组情绪子编码中的一个情绪子编码,sin(2
L
‑1πE)表示第L组情绪子编码中的其中一个情绪子编码的正弦值,cos(2
L
‑1πE)表示第L组情绪子编码中另一个情绪子编码的余弦值,[x]表示由x组成的矩阵。
[0018]可选的,对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵,包括:将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置,以得到所述融合矩阵,其中,所述语音编码矩阵的时间维度保持不变。
[0019]可选的,采用下述公式,将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置,以得到所述融合矩阵:
[0020]P∈R
2L

[0021]v∈R
t
×
s

[0022][0023]其中,P表示所述情绪编码矩阵,v标识所述语音编码矩阵,表示所述融合矩阵,t表示所述语音编码矩阵的行数,即所述语音编码矩阵的时间维度,s表示所述语音编码矩阵中每一行语音编码的长度,2L表示情绪编码长度。
[0024]可选的,所述数字人生成模型选自:基于对抗生成网络GAN的模型、基于隐式神经场NeRF的模型。
[0025]本专利技术实施例还提供一种数字人生成装置,包括:输入信息确定模块,用于确定输入语音以及目标情绪信息;编码模块,用于对所述输入语音进行编码得到语音编码矩阵,以
及对所述目标情绪信息进行编码得到情绪编码矩阵;融合模块,用于对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;数字人生成模块,用于将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。
[0026]本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述数字人生成方法的步骤。
[0027]本专利技术实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述数字人生成方法的步骤。
[0028]与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:
[0029]本专利技术实施例提供一种数字人生成方法,确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人生成方法,其特征在于,包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。2.根据权利要求1所述的方法,其特征在于,所述目标情绪信息是预设的,或者,所述目标情绪信息是基于所述输入语音和情绪预测模型确定的。3.根据权利要求1所述的方法,其特征在于,在得到所述输入语音对应的数字人图像之后,所述方法还包括:采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数,对所述数字人生成模型进行训练,得到优化后的数字人生成模型;将所述融合矩阵输入至所述优化后的数字人生成模型,得到所述输入语音对应的优化后数字人图像。4.根据权利要求2或3所述的方法,其特征在于,所述目标情绪信息指示的情绪类型和所述输入语音中包含的情绪类型一致。5.根据权利要求3所述的方法,其特征在于,所述预设的损失函数为:其中,L表示所述损失函数,A表示所述数字人图像或所述原始图像在第一方向上的像素点个数,B表示所述数字人图像或所述原始图像在第二方向上的像素点个数,(a,b)表示所述数字人图像或所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点,ch表示像素点的色彩通道,I
g,ch
(a,b)表示所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值,I
ch
(a,b)表示所述数字人图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值。6.根据权利要求3所述的方法,其特征在于,在得到所述输入语音对应的优化后数字人图像之后,所述方法还包括:对多段输入语音分别对应的优化后数字人图像进行拼接处理,得到数字人生成视频。7.根据权利要求1所述的方法,其特征在于,对所述目标情绪信息进行编码得到情绪编码矩阵,包括:基于预设的情绪编码长度,对所述目标情绪信息进行预编码,得到多组情绪子编码,每组情绪子编码中包含两个相同的情绪子编码;对于每组情绪子编码,确定其中一个情绪子编码的正弦值,以及确定另一个情绪子编码的余弦值,从而确定各个情绪子编码对应的情绪编码,并基于所得到的多个情绪编码,确定所述情绪编码矩阵。8.根据权利要求7所述的方法,其特征在于,采用下述公式,对于每组情绪子编码,确定其中一个情绪子编码的正弦值,以及确定另一个情绪子编码的余弦值,从而确定各个情绪子编码对应的情绪编码,并基于所得到的多个...

【专利技术属性】
技术研发人员:沈旭立
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1