说话头视频合成方法、装置、终端设备及可读存储介质制造方法及图纸

技术编号：34639595 阅读：8 留言：0更新日期：2022-08-24 15:14

本申请适用于终端技术领域，尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法在获取目标文本和目标图像后，确定目标文本对应的目标音素序列；根据目标音素序列，获取目标文本对应的声学特征，并根据声学特征，得到目标文本对应的合成语音；根据目标音素序列，确定目标文本对应的第一目标嘴部动作序列，并根据声学特征，确定目标文本对应的第二目标嘴部动作序列；根据第一目标嘴部动作序列、第二目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频；对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频，以通过文本和文本对应的声学特征来预设嘴部动作，降低嘴部动作预测的复杂度。测的复杂度。测的复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
说话头视频合成方法、装置、终端设备及可读存储介质

[0001]本申请属于终端
，尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]说话头视频合成是指根据一段文本和指定的脸部图像，输出对应该文本和该脸部图像的一段说话头的多模态视频(即包含合成的语音和说话时的脸部动作等)。但目前的说话头视频合成方法一般是先根据文本合成语音，并通过复杂的网络模型将合成的语音映射到人脸的嘴部动作序列，导致说话头视频合成的复杂度较高。

技术实现思路

[0003]本申请实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质，可以解决现有的说话头视频合成的复杂度较高的问题。
[0004]第一方面，本申请实施例提供了一种说话头视频合成方法，可以包括：
[0005]获取目标文本和目标图像，所述目标图像中包含目标用户的脸部图像；
[0006]确定所述目标文本对应的目标音素序列，所述目标音素序列中包含一个或多个目标音素；
[0007]根据所述目标音素序列，获取所述目标文本对应的声学特征，并根据所述声学特征，得到所述目标文本对应的合成语音；
[0008]根据所述目标音素序列，确定所述目标文本对应的第一目标嘴部动作序列，并根据所述声学特征，确定所述目标文本对应的第二目标嘴部动作序列；
[0009]根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频；
[0010]对所述合成...

【技术保护点】

【技术特征摘要】
1.一种说话头视频合成方法，其特征在于，包括：获取目标文本和目标图像，所述目标图像中包含目标用户的脸部图像；确定所述目标文本对应的目标音素序列，所述目标音素序列中包含一个或多个目标音素；根据所述目标音素序列，获取所述目标文本对应的声学特征，并根据所述声学特征，得到所述目标文本对应的合成语音；根据所述目标音素序列，确定所述目标文本对应的第一目标嘴部动作序列，并根据所述声学特征，确定所述目标文本对应的第二目标嘴部动作序列；根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频；对所述合成语音和所述脸部动作视频进行同步处理，得到所述目标用户对应的说话头视频。2.根据权利要求1所述的方法，其特征在于，在所述确定所述目标文本对应的目标音素序列之后，所述方法还包括：确定所述目标音素序列中的各目标音素对应的第一时长，并根据所述第一时长确定所述合成语音对应的第二时长；根据所述第二时长，获取所述目标文本对应的头部和眼部动作序列；所述根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频，包括：根据所述第一目标嘴部动作序列、所述第二目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像，得到所述目标用户对应的脸部动作视频。3.根据权利要求1所述的方法，其特征在于，在所述根据所述目标音素序列，确定所述目标文本对应的第一目标嘴部动作序列之前，所述方法还包括：获取视频数据集，所述视频数据集包括多条视频数据；对于每一视频数据，确定所述视频数据对应的训练音素序列；确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作；对于每一训练音素，根据所述训练音素对应的各第一初始嘴部动作，确定所述训练音素对应的第一训练嘴部动作；根据各训练音素对应的第一训练嘴部动作，确定各所述训练音素序列对应的第一训练嘴部动作序列；利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列，训练得到第一预测模型，所述第一预测模型用于根据音素序列，预测第一目标嘴部动作序列。4.根据权利要求1所述的方法，其特征在于，在所述根据所述声学特征，确定所述目标文本对应的第二目标嘴部动作序列之前，所述方法还包括：获取视频数据集，所述视频数据集包括多条视频数据；对于每一视频数据，确定所述视频数据对应的训练音素序列；根据所述训练音素序列，获取所述视频数据对应的声学特征，并确定所述声学特征对应的第二初始嘴部动作序列；确定所述训练音素序列对应的第一目标嘴部动作序列；
根据所述第二初始嘴部动作序列和所述训练音素序列对应的第一目标嘴部动作序列，得到所述声学特征对应的第二训练嘴部动作序列；利用各所述...

【专利技术属性】
技术研发人员：丁万，黄东延，颜霖煌，杨志勇，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人