虚拟数字人动态嘴型的生成方法及相关设备技术

技术编号：34811464 阅读：20 留言：0更新日期：2022-09-03 20:20

本发明专利技术提供了一种虚拟数字人动态嘴型的生成方法及相关设备，其中方法包括：提取虚拟数字人音视频中的音频；对音频进行语音识别获得拼音文档；将拼音文档和音频进行音素和音频帧对齐处理，获得带有时间序列的音素文档；从嘴型数据库中获取音素文档中音素集对应的嘴型图片集；提取虚拟数字人音视频中的视频；基于音素集中各个音素在音素文档中对应的时间序列确定各个音素在视频中对应的视频帧；从嘴型图片集中获取各个音素对应的嘴型图片；对于每个嘴型图片，通过亮度追踪的方式识别出嘴型图片在视频帧上的嘴巴位置，根据嘴巴位置将所述嘴型图片贴到视频帧中。本发明专利技术的方法可以快速且准确的生成虚拟数字人动态嘴型，虚拟数字人更加生动有趣。人更加生动有趣。人更加生动有趣。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟数字人动态嘴型的生成方法及相关设备

[0001]本专利技术涉及虚拟图像生成
，尤其涉及一种虚拟数字人动态嘴型的生成方法及相关设备。

技术介绍

[0002]当前，AI合成虚拟人物视频是人工智能技术应用的全新领域，包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项先进技术，实现了定制化的虚拟人物解决方案。通过AI生成的虚拟人物可用于许多与人交互的场景，如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化的生成不同人物形象，使视频交互内容更加生动有趣。现有技术在制作虚拟数字人时，容易存在虚拟数字人的嘴型和语音不对应，以及虚拟数字人的嘴型和虚拟数字人身体不协调的技术问题，难以满足用户的需求。
[0003]因此，现有技术还有待于改进和发展。

技术实现思路

[0004]本专利技术的主要目的旨在提供一种生成的虚拟数字人嘴型快且准，且虚拟数字人嘴型和虚拟数字人身体更加协调的虚拟数字人嘴型生成方案。
[0005]本专利技术第一方面提供了一种虚拟数字人动态嘴型的生成方法，所述虚拟数字人动态嘴型的生成方法包括：
[0006]提取虚拟数字人音视频中的音频；
[0007]对所述音频进行语音识别获得拼音文档；
[0008]将所述拼音文档和所述音频进行音素和音频帧对齐处理，获得带有时间序列的音素文档；
[0009]从嘴型数据库中获取所述音素文档中音素集对应的嘴型图片集；
[0010]提取虚拟数字人音视频中的视频；
[00...

【技术保护点】

【技术特征摘要】
1.一种虚拟数字人动态嘴型的生成方法，其特征在于，所述虚拟数字人动态嘴型的生成方法包括：提取虚拟数字人音视频中的音频；对所述音频进行语音识别获得拼音文档；将所述拼音文档和所述音频进行音素和音频帧对齐处理，获得带有时间序列的音素文档；从嘴型数据库中获取所述音素文档中音素集对应的嘴型图片集；提取虚拟数字人音视频中的视频；基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧；从所述嘴型图片集中获取各个所述音素对应的嘴型图片；对于每个所述嘴型图片，通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置，根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中。2.根据权利要求1所述的虚拟数字人动态嘴型的生成方法，其特征在于，所述将所述拼音文档和所述音频进行音素和音频帧对齐处理，获得带有时间序列的音素文档包括：将所述拼音文档中的各个拼音进行声母韵母拆分，获得各个所述拼音的音素；读取所述音频，获得各个所述音素在所述音频对应的音频帧；基于所述音频帧在所述音频中的时间戳获得各个所述音素的时间序列，所述时间序列包括所述音素的起始时间和所述音素的终止时间；按照起始时间、终止时间、音素的书写顺序将各个所述音素以及各个所述音素对应的所述起始时间和所述终止时间写在所述音素文档中。3.根据权利要求2所述的虚拟数字人动态嘴型的生成方法，其特征在于，所述基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧包括：对于每个所述音素，获取所述音素的所述起始时间和所述音素的所述终止时间；获取所述视频的帧率；通过所述起始时间*所述帧率获得的第一数值和所述终止时间*所述帧率获得的第二数值确定所述音素在所述视频中对应的视频帧。4.根据权利要求3所述的虚拟数字人动态嘴型的生成方法，其特征在于，所述通过所述起始时间*所述帧率获得的第一数值和所述终止时间*所述帧率获得的第二数值确定所述音素在所述视频中对应的视频帧之后包括：将每个所述音素与每个所述音素在所述视频中对应的所述视频帧以字典的格式进行保存，得到所述音素与所述视频帧的字典文档。5.根据权利要求3所述的虚拟数字人动态嘴型的生成方法，其特征在于，所述对于每个所述嘴型图片，通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置，根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中包括：基于所述视频制作出带有嘴部位置人工标记的参照视频；获取所述视频中所述嘴型图片对应的所述视频帧；获取所述参照视频中所述视频帧对应的参照视频帧；

【专利技术属性】
技术研发人员：苏朋杨，蔡卓君，白新平，
申请(专利权)人：上海积图科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人