说话头视频合成方法、装置、终端设备及可读存储介质制造方法及图纸

技术编号:34639595 阅读:8 留言:0更新日期:2022-08-24 15:14
本申请适用于终端技术领域,尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法在获取目标文本和目标图像后,确定目标文本对应的目标音素序列;根据目标音素序列,获取目标文本对应的声学特征,并根据声学特征,得到目标文本对应的合成语音;根据目标音素序列,确定目标文本对应的第一目标嘴部动作序列,并根据声学特征,确定目标文本对应的第二目标嘴部动作序列;根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频;对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频,以通过文本和文本对应的声学特征来预设嘴部动作,降低嘴部动作预测的复杂度。测的复杂度。测的复杂度。

【技术实现步骤摘要】
说话头视频合成方法、装置、终端设备及可读存储介质


[0001]本申请属于终端
,尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]说话头视频合成是指根据一段文本和指定的脸部图像,输出对应该文本和该脸部图像的一段说话头的多模态视频(即包含合成的语音和说话时的脸部动作等)。但目前的说话头视频合成方法一般是先根据文本合成语音,并通过复杂的网络模型将合成的语音映射到人脸的嘴部动作序列,导致说话头视频合成的复杂度较高。

技术实现思路

[0003]本申请实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质,可以解决现有的说话头视频合成的复杂度较高的问题。
[0004]第一方面,本申请实施例提供了一种说话头视频合成方法,可以包括:
[0005]获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
[0006]确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素;
[0007]根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音;
[0008]根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列;
[0009]根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
[0010]对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
[0011]在上述的说话头视频合成方法中,终端设备可以获取目标文本和目标图像,目标图像中包含目标用户的脸部图像;确定目标文本对应的目标音素序列;根据目标音素序列,获取目标文本对应的声学特征,并根据声学特征,得到目标文本对应的合成语音;根据目标音素序列,确定目标文本对应的第一目标嘴部动作序列,并根据声学特征,确定目标文本对应的第二目标嘴部动作序列;根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频;对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频。即本申请实施例中,可以基于语言学知识建立轻量级且准确的文本到音素的映射,以及音素到视素的映射,从而可以通过文本和文本对应的声学特征来预测嘴部动作,降低嘴部动作预测的复杂度,提高说话头视频合成的效率,提升用户体验。
[0012]在一种可能的实现方式中,在所述确定所述目标文本对应的目标音素序列之后,
所述方法还包括:
[0013]确定所述目标音素序列中的各目标音素对应的第一时长,并根据所述第一时长确定所述合成语音对应的第二时长;
[0014]根据所述第二时长,获取所述目标文本对应的头部和眼部动作序列;
[0015]所述根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频,包括:
[0016]根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像,得到所述目标用户对应的脸部动作视频。
[0017]在一个示例中,在所述根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列之前,所述方法还可以包括:
[0018]获取视频数据集,所述视频数据集包括多条视频数据;
[0019]对于每一视频数据,确定所述视频数据对应的训练音素序列;
[0020]确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作;
[0021]对于每一训练音素,根据所述训练音素对应的各第一初始嘴部动作,确定所述训练音素对应的第一训练嘴部动作;
[0022]根据各训练音素对应的第一训练嘴部动作,确定各所述训练音素序列对应的第一训练嘴部动作序列;
[0023]利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列,训练得到第一预测模型,所述第一预测模型用于根据音素序列,预测第一目标嘴部动作序列。
[0024]在另一个示例中,在所述根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列之前,所述方法还可以包括:
[0025]获取视频数据集,所述视频数据集包括多条视频数据;
[0026]对于每一视频数据,确定所述视频数据对应的训练音素序列;
[0027]根据所述训练音素序列,获取所述视频数据对应的声学特征,并确定所述声学特征对应的第二初始嘴部动作序列;
[0028]确定所述训练音素序列对应的第一目标嘴部动作序列;
[0029]根据所述第二初始嘴部动作序列和所述第一目标嘴部动作序列,得到所述声学特征对应的第二训练嘴部动作序列;
[0030]利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列,训练得到第二预测模型,所述第二预测模型用于根据声学特征,预测第二目标嘴部动作序列。
[0031]可选的,所述根据所述第二时长,获取所述目标文本对应的头部和眼部动作序列,可以包括:
[0032]从预设的视频数据集中,获取所述第二时长的头部和眼部动作,并将所述头部和眼部动作组合成所述目标文本对应的头部和眼部动作序列。
[0033]示例性的,所述根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频,可以包括:
[0034]对所述第一目标嘴部动作序列和所述第二目标嘴部动作序列进行融合,得到融合后的嘴部动作序列;
[0035]根据所述融合后的嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频。
[0036]第二方面,本申请实施例提供了一种说话头视频合成装置,可以包括:
[0037]文本图像获取模块,用于获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
[0038]音素序列确定模块,用于确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素;
[0039]语音合成模块,用于根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音;
[0040]嘴部动作确定模块,用于根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列;
[0041]脸部视频合成模块,用于根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
[0042]说话头视频获取模块,用于对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
[0043]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话头视频合成方法,其特征在于,包括:获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;确定所述目标文本对应的目标音素序列,所述目标音素序列中包含一个或多个目标音素;根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,得到所述目标文本对应的合成语音;根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列,并根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列;根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。2.根据权利要求1所述的方法,其特征在于,在所述确定所述目标文本对应的目标音素序列之后,所述方法还包括:确定所述目标音素序列中的各目标音素对应的第一时长,并根据所述第一时长确定所述合成语音对应的第二时长;根据所述第二时长,获取所述目标文本对应的头部和眼部动作序列;所述根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频,包括:根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像,得到所述目标用户对应的脸部动作视频。3.根据权利要求1所述的方法,其特征在于,在所述根据所述目标音素序列,确定所述目标文本对应的第一目标嘴部动作序列之前,所述方法还包括:获取视频数据集,所述视频数据集包括多条视频数据;对于每一视频数据,确定所述视频数据对应的训练音素序列;确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作;对于每一训练音素,根据所述训练音素对应的各第一初始嘴部动作,确定所述训练音素对应的第一训练嘴部动作;根据各训练音素对应的第一训练嘴部动作,确定各所述训练音素序列对应的第一训练嘴部动作序列;利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列,训练得到第一预测模型,所述第一预测模型用于根据音素序列,预测第一目标嘴部动作序列。4.根据权利要求1所述的方法,其特征在于,在所述根据所述声学特征,确定所述目标文本对应的第二目标嘴部动作序列之前,所述方法还包括:获取视频数据集,所述视频数据集包括多条视频数据;对于每一视频数据,确定所述视频数据对应的训练音素序列;根据所述训练音素序列,获取所述视频数据对应的声学特征,并确定所述声学特征对应的第二初始嘴部动作序列;确定所述训练音素序列对应的第一目标嘴部动作序列;
根据所述第二初始嘴部动作序列和所述训练音素序列对应的第一目标嘴部动作序列,得到所述声学特征对应的第二训练嘴部动作序列;利用各所述...

【专利技术属性】
技术研发人员:丁万黄东延颜霖煌杨志勇
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1