一种语音生成视频的方法和装置制造方法及图纸

技术编号:36166902 阅读:73 留言:0更新日期:2022-12-31 20:16
本发明专利技术实施例提供了一种语音生成视频的方法和装置,方法包括:响应于语音输入操作,确定语音输入操作对应的语音数据;根据语音数据,从针对目标对象配置的多个预设形象中确定目标形象;获取基于语音提取姿势数据的第一模型,并通过第一模型确定语音数据的初始姿势数据;获取目标形象对应的标准姿势数据,并根据标准姿势数据对初始姿势数据进行重定向,得到目标姿势数据;确定目标形象对应的用于基于姿势合成视频的第二模型,并将目标姿势数据输入第二模型中,生成目标形象的目标视频。通过本发明专利技术实施例,实现了基于语音数据生成包含目标对象姿势动作的目标视频,使生成的视频更形象生动,增加沉浸感和体验感。增加沉浸感和体验感。增加沉浸感和体验感。

【技术实现步骤摘要】
一种语音生成视频的方法和装置


[0001]本专利技术涉及语音
,特别是涉及一种语音生成视频的方法和装置。

技术介绍

[0002]在实际应用中,可以实现基于语音生成人脸视频,以通过人脸形象地展示语音,在生成人脸视频的技术可以分为:生成特定人脸的人脸视频或者生成任意人脸的人脸视频。
[0003]在生成特定人脸的人脸视频的过程中,通过对特定形象的短视频进行训练得到深度学习模型,在训练过程中,将视频帧与语音信号分离,使模型能够记住特定发音时人脸的表情及嘴部动作,从而,在实际使用时不需要视频仅通过音频输入即可生成训练时对应人脸的视频。
[0004]在生成任意人脸的人脸视频的过程中,可以预先选择不同形象的短视频进行训练,将面部形象编码为一个隐向量,按照不同语音信号,随机选择隐向量调整人脸的形象,来生成对应语音的嘴部动作和面部表情。
[0005]然而,上述基于语音生成人脸视频的技术局限于人脸,并不涉及人体的姿势及动作;同时,由于人体的姿势动作较为丰富多变,上述基于语音生成人脸视频的方案中一对一的音素到唇形的假设并不能直接移植到语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音生成视频的方法,其特征在于,所述方法包括:响应于语音输入操作,确定所述语音输入操作对应的语音数据;根据所述语音数据,从针对目标对象配置的多个预设形象中确定目标形象;获取基于语音提取姿势数据的第一模型,并通过所述第一模型确定所述语音数据的初始姿势数据;获取所述目标形象对应的标准姿势数据,并根据所述标准姿势数据对所述初始姿势数据进行重定向,得到目标姿势数据;确定所述目标形象对应的用于基于姿势合成视频的第二模型,并将所述目标姿势数据输入所述第二模型中,生成所述目标形象的目标视频。2.根据权利要求1所述的方法,其特征在于,所述通过所述第一模型确定所述语音数据的初始姿势数据,包括:确定所述语音数据对应的语义数据;根据所述语音数据和所述语义数据,确定所述语音数据对应的初始姿势数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述语音数据和所述语义数据,确定所述语音数据对应的初始姿势数据,包括:判断所述语义数据是否为目标语义数据,所述目标语义数据在所述第一模型中存在对应的第一姿势数据;在判定所述语义数据为目标语义数据时,确定所述目标语义数据的目标语义向量;确定所述语音数据的第一语音向量;根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述语音数据的初始姿势数据,包括:将所述目标语义向量和所述第一语音向量进行拼接,生成第一拼接向量;根据所述第一拼接向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。5.根据权利要求3所述的方法,其特征在于,还包括:在判定所述语义数据不为目标语义数据时,从所述第一模型预设的多个模板向量中随机确定目标模板向量;所述目标模板向量在所述第一模型中存在对应的第二姿势数据;确定所述语音数据的第二语音向量;根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据。6.根据权利要求5所述的方法,其特征在于,所述根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据,包括:将所述目标模板向量和所述第二语音向量进行拼接,生成第二拼接向量;根据所述第二拼接向量和所述第二姿势数据确定所述语音数据的初始姿势数据。7.根据权利要求1所述的方法,其特征在于,所述根据所述标准姿势数据对所述初始姿势数据进行重定向,得到目标姿势数据,包括:确定所述标准姿势数据的姿势参数;根据所述姿势参数对所述初始姿势数据进行调整,得到目标姿势数据。
8.根据权利要求1所述的方法,其特征在于,所述根据所述语音数据,从针对目标对象配置的多个预设形象中确定目标形象,包括:获取预先训练的用于筛选形象的第三模型;将所述语音数据输入所述第三模型,确定所述语音数据的音频特征数据,并根据所述音频特征数据确定所述语音数据对应的形象属性信息;基于所述形象属性信息从针对目标对象配置的多个预设形象中确定目标形象。9.根据权利要求1所述的方法,其特征在于,所述第一模型通过如下步骤训练生成:获取预设的第一模型和针对所述第一模型进行训练的第一视频;所述第一视频为所述目标对象随语音变换姿势的语音视频;确定所述第一视频中候选语音数据以及所述候选语音数据对应的候选语义数据;从所述第一视频的每帧图像中提取所述目标对象的候选姿势数据;根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练,以使所述第一模型针对输入的语音数据生成对应的姿势数据。10.根据权利要求9所述的方法,其特征在于,所述根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练,包括:确定所述第一模型中预设的目标语义数据;当所述候选语义数据为所述目标语义数据时,确定所述目标语义数据的目标语义向量和所述候选语音数据对应的语音向量;将所述目标语义向量和所述语音向量输入所述第一模型,生成第一预测姿势数据;基于所述候选姿势数据和所述第一预测姿势数据对所述第一模型进行调整。11.根据权利要求10所述的方法,其特征在于,还包括:当所述候选语义数据不为所述目标语义数据时,从所述第一模型预设的多个模板向量中随机确定目标模板向量;将所述目标模板向量和所述候选语音数据对应的语音向量输入所述第一模型,生成第二预测姿势数据;基于所述候选姿势数据和所述第二预测姿势数据对所述第一模型进行调整。12.根据权利要求1所述的方法,其特征在于,所述目标形象的第二模型通过如下步骤训练生成:针对所述目标对象录制基于目标形象变换姿势的第二视频;获取预设的用于基于姿势合成视频的第二模型;将所述第二视频输入到第二模型中,以从所述第二视频的每帧图像中提取所述目标对象对应的第三预测姿势数据,并基于所述第三预测姿势数据生成预测视频;基于所述第二视频和所述预测视频调整所述第二模型。13.根据权利要求12所述的方法,其特征在于,所述基于所述第二视频和所述预测视频调整所述第二模型,包括:确定所述第二模型的第一损失函数;基于所述第二视频和所述预测视频,确定所述第一损失函数的第一损失值;根据所述第一损失值调整所述第二模型的模型参数。14.根据权利要求12所述的方法,其特征在于,还包括:
在所述目标形象的第二模型训练完成后,基于所述第三预测姿势数据生成所述目标形象的标准姿势数据。15.根据权利要求8所述的方法,其特征在于,所述第三模型通过如下步骤训练生成:获取用于训...

【专利技术属性】
技术研发人员:王鹏飞
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1