虚拟数字人动态嘴型的生成方法及相关设备技术

技术编号:34811464 阅读:20 留言:0更新日期:2022-09-03 20:20
本发明专利技术提供了一种虚拟数字人动态嘴型的生成方法及相关设备,其中方法包括:提取虚拟数字人音视频中的音频;对音频进行语音识别获得拼音文档;将拼音文档和音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档;从嘴型数据库中获取音素文档中音素集对应的嘴型图片集;提取虚拟数字人音视频中的视频;基于音素集中各个音素在音素文档中对应的时间序列确定各个音素在视频中对应的视频帧;从嘴型图片集中获取各个音素对应的嘴型图片;对于每个嘴型图片,通过亮度追踪的方式识别出嘴型图片在视频帧上的嘴巴位置,根据嘴巴位置将所述嘴型图片贴到视频帧中。本发明专利技术的方法可以快速且准确的生成虚拟数字人动态嘴型,虚拟数字人更加生动有趣。人更加生动有趣。人更加生动有趣。

【技术实现步骤摘要】
虚拟数字人动态嘴型的生成方法及相关设备


[0001]本专利技术涉及虚拟图像生成
,尤其涉及一种虚拟数字人动态嘴型的生成方法及相关设备。

技术介绍

[0002]当前,AI合成虚拟人物视频是人工智能技术应用的全新领域,包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项先进技术,实现了定制化的虚拟人物解决方案。通过AI生成的虚拟人物可用于许多与人交互的场景,如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化的生成不同人物形象,使视频交互内容更加生动有趣。现有技术在制作虚拟数字人时,容易存在虚拟数字人的嘴型和语音不对应,以及虚拟数字人的嘴型和虚拟数字人身体不协调的技术问题,难以满足用户的需求。
[0003]因此,现有技术还有待于改进和发展。

技术实现思路

[0004]本专利技术的主要目的旨在提供一种生成的虚拟数字人嘴型快且准,且虚拟数字人嘴型和虚拟数字人身体更加协调的虚拟数字人嘴型生成方案。
[0005]本专利技术第一方面提供了一种虚拟数字人动态嘴型的生成方法,所述虚拟数字人动态嘴型的生成方法包括:
[0006]提取虚拟数字人音视频中的音频;
[0007]对所述音频进行语音识别获得拼音文档;
[0008]将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档;
[0009]从嘴型数据库中获取所述音素文档中音素集对应的嘴型图片集;
[0010]提取虚拟数字人音视频中的视频;
[0011]基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧;
[0012]从所述嘴型图片集中获取各个所述音素对应的嘴型图片;
[0013]对于每个所述嘴型图片,通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置,根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中。
[0014]在本专利技术第一方面一种可选的实施方式中,所述将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档包括:
[0015]将所述拼音文档中的各个拼音进行声母韵母拆分,获得各个所述拼音的音素;
[0016]读取所述音频,获得各个所述音素在所述音频对应的音频帧;
[0017]基于所述音频帧在所述音频中的时间戳获得各个所述音素的时间序列,所述时间序列包括所述音素的起始时间和所述音素的终止时间;
[0018]按照起始时间、终止时间、音素的书写顺序将各个所述音素以及各个所述音素对
应的所述起始时间和所述终止时间写在所述音素文档中。
[0019]在本专利技术第一方面一种可选的实施方式中,所述基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧包括:
[0020]对于每个所述音素,获取所述音素的所述起始时间和所述音素的所述终止时间;
[0021]获取所述视频的帧率;
[0022]通过所述起始时间*所述帧率获得的第一数值和所述终止时间*所述帧率获得的第二数值确定所述音素在所述视频中对应的视频帧。
[0023]在本专利技术第一方面一种可选的实施方式中,所述通过所述起始时间*所述帧率获得的第一数值和所述终止时间*所述帧率获得的第二数值确定所述音素在所述视频中对应的视频帧之后包括:
[0024]将每个所述音素与每个所述音素在所述视频中对应的所述视频帧以字典的格式进行保存,得到所述音素与所述视频帧的字典文档。
[0025]在本专利技术第一方面一种可选的实施方式中,所述对于每个所述嘴型图片,通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置,根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中包括:
[0026]基于所述视频制作出带有嘴部位置人工标记的参照视频;
[0027]获取所述视频中所述嘴型图片对应的所述视频帧;
[0028]获取所述参照视频中所述视频帧对应的参照视频帧;
[0029]将所述视频帧和所述参照视频帧相减抠除掉重合部分获得背景为黑色且带有所述嘴部位置人工标记的二值图像;
[0030]通过亮度追踪的方式获得所述二值图像中的所述嘴部位置人工标记的坐标;
[0031]基于所述坐标将所述嘴型图片贴到所述视频帧的相应位置上。
[0032]在本专利技术第一方面一种可选的实施方式中,所述基于所述坐标将所述嘴型图片贴到所述视频帧的相应位置上包括:
[0033]获取所述视频帧的图像尺寸参数;
[0034]基于所述视频帧的图像尺寸参数对所述嘴型图片的尺寸参数进行调整;
[0035]基于所述视频帧中虚拟数字人的中轴线与标准坐标系的Y轴线的夹角确定所述嘴型图片的摆动角度;
[0036]将所述嘴型图片贴合到所述视频帧的相应位置上并调整所述嘴型图片至所述摆动角度。
[0037]在本专利技术第一方面一种可选的实施方式中,所述对所述音频进行语音识别获得拼音文档通过wenet语音识别模型实现;所述将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档通过WAV2VEC2声学模型实现。
[0038]本专利技术第二方面提供了一种虚拟数字人动态嘴型的生成装置所述虚拟数字人动态嘴型的生成装置包括:
[0039]第一提取模块,用于提取虚拟数字人音视频中的音频;
[0040]语音识别模块,用于对所述音频进行语音识别获得拼音文档;
[0041]对齐模块,用于将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档;
[0042]第一获取模块,用于从嘴型数据库中获取所述音素文档中音素集对应的嘴型图片集;
[0043]第二提取模块,用于提取虚拟数字人音视频中的视频;
[0044]匹配模块,用于基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧;
[0045]第二获取模块,用于从所述嘴型图片集中获取各个所述音素对应的嘴型图片;
[0046]贴合模块,用于对于每个所述嘴型图片,通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置,根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中。
[0047]本专利技术第三方面提供了一种虚拟数字人动态嘴型的生成设备,所述客户端配置数据的更新设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
[0048]所述至少一个处理器调用所述存储器中的所述指令,以使得所述虚拟数字人动态嘴型的生成设备执行如上述任一项所述的虚拟数字人动态嘴型的生成方法。
[0049]本专利技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的虚拟数字人动态嘴型的生成方法。
[0050]有益效果:本专利技术提供了一种虚拟数字人动态嘴型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟数字人动态嘴型的生成方法,其特征在于,所述虚拟数字人动态嘴型的生成方法包括:提取虚拟数字人音视频中的音频;对所述音频进行语音识别获得拼音文档;将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档;从嘴型数据库中获取所述音素文档中音素集对应的嘴型图片集;提取虚拟数字人音视频中的视频;基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧;从所述嘴型图片集中获取各个所述音素对应的嘴型图片;对于每个所述嘴型图片,通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置,根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中。2.根据权利要求1所述的虚拟数字人动态嘴型的生成方法,其特征在于,所述将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档包括:将所述拼音文档中的各个拼音进行声母韵母拆分,获得各个所述拼音的音素;读取所述音频,获得各个所述音素在所述音频对应的音频帧;基于所述音频帧在所述音频中的时间戳获得各个所述音素的时间序列,所述时间序列包括所述音素的起始时间和所述音素的终止时间;按照起始时间、终止时间、音素的书写顺序将各个所述音素以及各个所述音素对应的所述起始时间和所述终止时间写在所述音素文档中。3.根据权利要求2所述的虚拟数字人动态嘴型的生成方法,其特征在于,所述基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧包括:对于每个所述音素,获取所述音素的所述起始时间和所述音素的所述终止时间;获取所述视频的帧率;通过所述起始时间*所述帧率获得的第一数值和所述终止时间*所述帧率获得的第二数值确定所述音素在所述视频中对应的视频帧。4.根据权利要求3所述的虚拟数字人动态嘴型的生成方法,其特征在于,所述通过所述起始时间*所述帧率获得的第一数值和所述终止时间*所述帧率获得的第二数值确定所述音素在所述视频中对应的视频帧之后包括:将每个所述音素与每个所述音素在所述视频中对应的所述视频帧以字典的格式进行保存,得到所述音素与所述视频帧的字典文档。5.根据权利要求3所述的虚拟数字人动态嘴型的生成方法,其特征在于,所述对于每个所述嘴型图片,通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置,根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中包括:基于所述视频制作出带有嘴部位置人工标记的参照视频;获取所述视频中所述嘴型图片对应的所述视频帧;获取所述参照视频中所述视频帧对应的参照视频帧;

【专利技术属性】
技术研发人员:苏朋杨蔡卓君白新平
申请(专利权)人:上海积图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1