【技术实现步骤摘要】
数字人生成方法及装置、计算机可读存储介质、终端
[0001]本专利技术涉及计算机
,尤其涉及一种数字人生成方法及装置、存储介质、终端。
技术介绍
[0002]数字人生成任务,是通过一段给定的语音或文字,生成一段说话人为视角中心的数字人视频。数字人具有特定的形象,可被应用于新闻广播,旅游场所介绍,产品服务介绍等领域。
[0003]目前的数字人生成方法有很多种,例如,基于生成对抗网络(Generative Adversarial Network,GAN)或者基于隐式神经场(Neural Radiance Fields,NeRF)等理论的数字人生成方法。这些方法的目的在于尽可能生成质量高清、嘴型与语音对齐的数字人,但无法生成带有情绪的数字人。
[0004]然而,在现实使用场景中,仅能够进行语音表达的数字人已无法满足用户的交互需求。以产品服务介绍应用场景为例,期待生成的数字人不仅能够正确回复用户提出的问题,同时展示出符合场景需求的表情状态,例如,可以基于给定的目标情绪或感知到的用户的情绪,相应地生成与用户共情的数字人,从而使得生成的数字人可以更好的传递情绪,提升用户体验。这样的情绪可编辑的数字人生成方案在医疗康复、自动驾驶、家政服务等领域存在较大需求。但是,目前的数字人生成技术中,尚缺乏可以编辑数字人的情绪的有效方案。
技术实现思路
[0005]本专利技术实施例解决的技术问题是如何生成带有情绪的数字人,且实现数字人的情绪可编辑化。
[0006]为解决上述技术问题,本专利技术实施例 ...
【技术保护点】
【技术特征摘要】
1.一种数字人生成方法,其特征在于,包括:确定输入语音以及目标情绪信息;对所述输入语音进行编码得到语音编码矩阵,以及对所述目标情绪信息进行编码得到情绪编码矩阵;对所述语音编码矩阵和所述情绪编码矩阵进行融合,得到融合矩阵;将所述融合矩阵输入至数字人生成模型,得到所述输入语音对应的数字人图像。2.根据权利要求1所述的方法,其特征在于,所述目标情绪信息是预设的,或者,所述目标情绪信息是基于所述输入语音和情绪预测模型确定的。3.根据权利要求1所述的方法,其特征在于,在得到所述输入语音对应的数字人图像之后,所述方法还包括:采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数,对所述数字人生成模型进行训练,得到优化后的数字人生成模型;将所述融合矩阵输入至所述优化后的数字人生成模型,得到所述输入语音对应的优化后数字人图像。4.根据权利要求2或3所述的方法,其特征在于,所述目标情绪信息指示的情绪类型和所述输入语音中包含的情绪类型一致。5.根据权利要求3所述的方法,其特征在于,所述预设的损失函数为:其中,L表示所述损失函数,A表示所述数字人图像或所述原始图像在第一方向上的像素点个数,B表示所述数字人图像或所述原始图像在第二方向上的像素点个数,(a,b)表示所述数字人图像或所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点,ch表示像素点的色彩通道,I
g,ch
(a,b)表示所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值,I
ch
(a,b)表示所述数字人图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值。6.根据权利要求3所述的方法,其特征在于,在得到所述输入语音对应的优化后数字人图像之后,所述方法还包括:对多段输入语音分别对应的优化后数字人图像进行拼接处理,得到数字人生成视频。7.根据权利要求1所述的方法,其特征在于,对所述目标情绪信息进行编码得到情绪编码矩阵,包括:基于预设的情绪编码长度,对所述目标情绪信息进行预编码,得到多组情绪子编码,每组情绪子编码中包含两个相同的情绪子编码;对于每组情绪子编码,确定其中一个情绪子编码的正弦值,以及确定另一个情绪子编码的余弦值,从而确定各个情绪子编码对应的情绪编码,并基于所得到的多个情绪编码,确定所述情绪编码矩阵。8.根据权利要求7所述的方法,其特征在于,采用下述公式,对于每组情绪子编码,确定其中一个情绪子编码的正弦值,以及确定另一个情绪子编码的余弦值,从而确定各个情绪子编码对应的情绪编码,并基于所得到的多个...
【专利技术属性】
技术研发人员:沈旭立,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。