基于联合训练的人脸视频与音频的同步方法及系统技术方案

技术编号:31509391 阅读:14 留言:0更新日期:2021-12-22 23:45
本发明专利技术涉及基于联合训练的人脸视频与音频的同步方法及系统、计算机设备,采用其全新逻辑关系,基于样本视频中各发音口型分别所对应待处理音素序列,结合各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征,以及各个口型视频分别所对应的指定类型口型特征,进行网络训练,获得口型特征生成模块;基于此获得目标音频中各句中文语音分别所对应的指定类型口型特征序列,用于针对各句中文语音分别所对应目标人脸视频中相应视频段的人脸嘴型进行修正,以及各句中文语音按其时间戳的加载,实现目标音频与目标人脸视频之间的同步,整个设计应用能够准确、且稳定的实现目标音频与目标视频的合成,提高实际音视频的效果。效果。效果。

【技术实现步骤摘要】
基于联合训练的人脸视频与音频的同步方法及系统


[0001]本专利技术涉及基于联合训练的人脸视频与音频的同步方法及系统、计算机设备,属于音视频合成处理


技术介绍

[0002]现在互联网和媒体领域有很多视频内容生成的需求,有些方法可以合成人脸的图片和视频,称为TTA,即text

to

animation,比如ATVG 方法;另一类方法可以合成声音,称为TTS,即text

to

speech,并且实际执行中有很多方法可以应用。但是如果用TTA和TTS分别做模型训练,容易出现音画不同步,即嘴形动作和声音不同步。因此现有技术对于彼此相独立的音频与视频,缺少一种准确、且稳定的合成方法。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供基于联合训练的人脸视频与音频的同步方法,应用音素特征对口型特征的学习,获得与音频相符合的口型特征,进而通过修正方式实现音频与人脸嘴型视频的同步。
[0004]本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了基于联合训练的人脸视频与音频的同步方法,通过如下步骤I至步骤V,生成口型特征生成模块,然后应用口型特征生成模块,按如下步骤A 至步骤C,获得目标音频与目标人脸视频之间的同步;
[0005]步骤I.获取样本视频中的各段音频,并获得与各段音频分别相对应的各个待选视频,然后进入步骤II;
[0006]步骤II.分别针对各个待选视频,针对待选视频所对应音频进行切分,获得该音频中的各句中文语音、以及各中文语音分别所对应的时间戳,进一步获得各句中文语音分别所对应的音素序列、以及各音素序列分别所对应的时间戳,组合构成该待选视频所对应的音素序列组;进而获得各待选视频分别所对应的音素序列组,然后进入步骤III;
[0007]步骤III.分别针对各个待选视频,根据待选视频所对应的音素序列组,按相邻帧不同发音口型,分割获得该待选视频中的各个口型视频,以及各个口型视频分别所对应的待处理音素序列;进而获得全部待选视频所对应的各个口型视频,以及各个口型视频分别所对应的待处理音素序列,然后进入步骤IV;
[0008]步骤IV.获得各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征,并获得各个口型视频分别所对应的指定类型口型特征,然后进入步骤V;
[0009]步骤V.根据各个口型视频分别所对应的指定类型口型特征,以及各个口型视频分别所对应待处理音素序列的指定类型特征,以口型视频所对应待处理音素序列的指定类型特征为输入,口型视频所对应的指定类型口型特征为输出,针对预设指定网络进行训练,构成口型特征生成模块;
[0010]步骤A.按步骤I至步骤IV,获得目标音频中各句中文语音分别所对应的音素序列,并获得各音素序列中各音素的指定类型特征,然后进入步骤B;
[0011]步骤B.根据目标音频中各句中文语音分别所对应音素序列中各音素的指定类型特征,以各音素的指定类型特征为输入,应用口型特征生成模块,获得目标音频中各句中文语音分别所对应音素序列中各音素对应的指定类型口型特征,进而获得目标音频中各句中文语音分别所对应的指定类型口型特征序列,然后进入步骤C;
[0012]步骤C.根据目标音频中各句中文语音分别所对应的指定类型口型特征序列,以及预设目标音频中各句中文语音分别对应于目标人脸视频的时间戳,针对各句中文语音分别所对应目标人脸视频中相应视频段的人脸嘴型进行修正,并将各句中文语音按其对应于目标人脸视频的时间戳进行加载,实现目标音频与目标人脸视频之间的同步。
[0013]作为本专利技术的一种优选技术方案:所述音素的指定类型特征为音素的embedding特征、或者音素的one

hot特征。
[0014]作为本专利技术的一种优选技术方案:所述音素的指定类型特征为音素的embedding特征,则所述步骤IV中,分别针对各个口型视频所对应的待处理音素序列,执行如下操作,获得口型视频所对应待处理音素序列中预设指定音素的指定类型特征;进而获得各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征;
[0015]获得口型视频所对应待处理音素序列中的各个landmark关键音素,分别选择各landmark关键音素前后预设数量的音素,作为各个待选音素,并选择其中频率最高的待选音素作为该口型视频所对应的预设指定音素;然后获得该口型视频所对应预设指定音素的embedding特征。
[0016]作为本专利技术的一种优选技术方案:所述音素的指定类型特征为音素的embedding特征、或者one

hot特征,则所述步骤IV中,分别针对各个口型视频所对应的待处理音素序列,执行如下操作,获得口型视频所对应待处理音素序列中预设指定音素的指定类型特征;进而获得各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征;
[0017]获得口型视频所对应待处理音素序列中的各个landmark关键音素,分别以各landmark关键音素的位置乘以预设参数数值,按四舍五入方式,获得各个位置,进而获得各个位置分别所对应的音素,作为各个待选音素;然后选择其中频率最高的待选音素作为该口型视频所对应的预设指定音素;最后获得该口型视频所对应预设指定音素的指定类型特征。
[0018]作为本专利技术的一种优选技术方案:按如下步骤a至步骤c,获得音素的embedding特征;
[0019]步骤a.根据样本视频中各段音频的长度,结合各句中文语句所对应拼音标注内声韵母的时间戳,按预设声母、韵母时长比,针对各句中文语句执行发音级数据标注,并应用force alignment针对发音级标注进行音素标记,获得各句中文语句分别对应的标注音素序列;
[0020]步骤b.应用TTS中的音素编码网络层,针对各句中文语句分别所对应标注音素序列中的各标注音素,将各标注音素转换为各音素编码 TTS表示,进而获得各句中文语句分别所对应标注音素序列中各标注音素的音素编码TTS表示,然后进入步骤c;
[0021]步骤c.将各句中文语句分别所对应标注音素序列中各标注音素的音素编码TTS表示,分别转换获得各标注音素的embedding特征,即音素的embedding特征。
[0022]作为本专利技术的一种优选技术方案:所述步骤V中,根据各个口型视频分别所对应的
指定类型口型特征,以及各个口型视频分别所对应待处理音素序列的指定类型特征,以口型视频所对应待处理音素序列的指定类型特征为输入,口型视频所对应的指定类型口型特征为输出,针对 GAN网络进行训练,构成口型特征生成模块。
[0023]与上述相对应,本专利技术所要解决的技术问题是提供基于联合训练的人脸视频与音频的同步方法的系统,应用音素特征对口型特征的学习,获得与音频相符合的口型特征,进而通过修正方式实现音频与人脸嘴型视频的同步。
[0024]本专利技术为了解决上述技术问题采用以下技术方案:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合训练的人脸视频与音频的同步方法,其特征在于,通过如下步骤I至步骤V,生成口型特征生成模块,然后应用口型特征生成模块,按如下步骤A至步骤C,获得目标音频与目标人脸视频之间的同步;步骤I.获取样本视频中的各段音频,并获得与各段音频分别相对应的各个待选视频,然后进入步骤II;步骤II.分别针对各个待选视频,针对待选视频所对应音频进行切分,获得该音频中的各句中文语音、以及各中文语音分别所对应的时间戳,进一步获得各句中文语音分别所对应的音素序列、以及各音素序列分别所对应的时间戳,组合构成该待选视频所对应的音素序列组;进而获得各待选视频分别所对应的音素序列组,然后进入步骤III;步骤III.分别针对各个待选视频,根据待选视频所对应的音素序列组,按相邻帧不同发音口型,分割获得该待选视频中的各个口型视频,以及各个口型视频分别所对应的待处理音素序列;进而获得全部待选视频所对应的各个口型视频,以及各个口型视频分别所对应的待处理音素序列,然后进入步骤IV;步骤IV.获得各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征,并获得各个口型视频分别所对应的指定类型口型特征,然后进入步骤V;步骤V.根据各个口型视频分别所对应的指定类型口型特征,以及各个口型视频分别所对应待处理音素序列的指定类型特征,以口型视频所对应待处理音素序列的指定类型特征为输入,口型视频所对应的指定类型口型特征为输出,针对预设指定网络进行训练,构成口型特征生成模块;步骤A.按步骤I至步骤IV,获得目标音频中各句中文语音分别所对应的音素序列,并获得各音素序列中各音素的指定类型特征,然后进入步骤B;步骤B.根据目标音频中各句中文语音分别所对应音素序列中各音素的指定类型特征,以各音素的指定类型特征为输入,应用口型特征生成模块,获得目标音频中各句中文语音分别所对应音素序列中各音素对应的指定类型口型特征,进而获得目标音频中各句中文语音分别所对应的指定类型口型特征序列,然后进入步骤C;步骤C.根据目标音频中各句中文语音分别所对应的指定类型口型特征序列,以及预设目标音频中各句中文语音分别对应于目标人脸视频的时间戳,针对各句中文语音分别所对应目标人脸视频中相应视频段的人脸嘴型进行修正,并将各句中文语音按其对应于目标人脸视频的时间戳进行加载,实现目标音频与目标人脸视频之间的同步。2.根据权利要求1所述基于联合训练的人脸视频与音频的同步方法,其特征在于:所述音素的指定类型特征为音素的embedding特征、或者音素的one

hot特征。3.根据权利要求2所述基于联合训练的人脸视频与音频的同步方法,其特征在于:所述音素的指定类型特征为音素的embedding特征,则所述步骤IV中,分别针对各个口型视频所对应的待处理音素序列,执行如下操作,获得口型视频所对应待处理音素序列中预设指定音素的指定类型特征;进而获得各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征;获得口型视频所对应待处理音素序列中的各个landmark关键音素,分别选择各landmark关键音素前后预设数量的音素,作为各个待选音素,并选择其中频率最高的待选音素作为该口型视频所对应的预设指定音素;然后获得该口型视频所对应预设指定音素的
embedding特征。4.根据权利要求2所述基于联合训练的人脸视频与音频的同步方法,其特征在于:所述音素的指定类型特征为音素的embedding特征、或者one

hot特征,则所述步骤IV中,分别针对各个口型视频所对应的待处理音素序列,执行如下操作,获得口型视频所对应待处理音素序列中预设指定音素的指定类型特征;进而获得各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征;获得口型视频所对应待处理音素序列中的各个landmark关键音素,分别以各landmark关键音素的位置乘以预设参数数值,按四舍五入方式,获得各个位置,进而获得各个位置分别所对应的音素,作为各个待选音素;然后选择其中频率最高的待选音素作为该口型视频所对...

【专利技术属性】
技术研发人员:包英泽梁光卢景熙冯富森舒科
申请(专利权)人:北京跳悦智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1