三维脸部嘴型运动转换方法、系统、电子设备与存储介质技术方案

技术编号：40781377 阅读：6 留言：0更新日期：2024-03-25 20:25

本发明专利技术适用于仿真机器人技术领域，提供了三维脸部嘴型运动转换方法，所述方法包括：实时捕获人脸框架；计算捕获的人脸框架数据；训练优化计算策略；当所述计算策略在训练期间收敛并获得最佳性能后，对计算后的数据进行模型压缩与网络选择，在移动端设备上实现实时嘴型运动生成，满足实时交互的需求；并且能够适应不同的语言和发音特征，通过大量的数据集训练，其强大的泛化能力使得算法即便在嘈杂环境或者方言口音中也能保持较高的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于仿真机器人，尤其涉及三维脸部嘴型运动转换方法、系统、电子设备与存储介质。

技术介绍

1、目前，在三维脸部动画生成领域，已有多种方法用于根据语音信号驱动三维脸部模型的嘴型运动。这些技术主要包括：1.基于规则的系统：使用一套预定义的规则将语音的音素转换为特定的嘴型或面部动作。例如，特定的音素或词汇与特定的嘴型相对应。2.基于关键帧的动画：通过手动设置关键帧来创造口型运动，使用插值技术在关键帧之间生成平滑的过渡。3.基于捕捉的方法：使用动作捕捉技术捕获实际的人类嘴型运动，然后将这些数据应用于三维模型。4.深度学习方法：运用深度神经网络来学习语音信号和嘴型之间的映射关系，实现自动生成嘴型动画。

2、尽管这些方法都在一定程度上成功地实现了三维嘴型动画的生成，但它们各自存在一些局限性：1.自然度不足：基于规则的系统很难涵盖语音中所有细微的变化，导致生成的嘴型运动缺乏自然流畅性。2.劳动密集型：基于关键帧的动画方法非常耗时和劳动密集，需要大量的手动工作来创建逼真的嘴型运动。3.成本和灵活性问题：基于捕捉的方法虽然能够提供逼真的嘴型运动，但设备成本高昂，且难以适应不同的角色和表情。4.计算资源需求高：深度学习方法通常需要大量的计算资源进行模型训练，这对于资源受限的环境来说是一个重大挑战。5.语音与嘴型不同步：现有技术可能在将语音信号转换为嘴型运动时出现同步问题，导致声音和嘴型不匹配。6.多样性和泛化能力不足：现有算法可能难以处理多种语言、方言或特殊语音模式，限制了它们在全球化应用中的适用性。

>技术实现思路

1、本专利技术实施例的目的在于提供三维脸部嘴型运动转换方法，旨在解决
技术介绍
中确定的现有技术存在的技术问题。

2、本专利技术实施例是这样实现的，三维脸部嘴型运动转换方法，所述方法包括：

3、实时捕获人脸框架；

4、计算捕获的人脸框架数据；

5、训练优化计算策略；

6、当所述计算策略在训练期间收敛并获得最佳性能后，对计算后的数据进行模型压缩与网络选择。

7、作为本专利技术进一步的方案：所述实时捕获人脸框架的步骤，具体包括：

8、使用视频序列来实时捕获人脸动作；

9、检测所述视频序列中的人脸并且跟踪关键点；

10、提取所述关键点的权重，从而捕捉面部运动的细节，用以生成人脸框架数据。

11、作为本专利技术进一步的方案：所述计算捕获的人脸框架数据的步骤，具体包括：

12、去除所述人脸框架数据中的网络异常值，以得到稳定的人脸框架数据；

13、处理所述稳定的人脸框架数据中的不同光照和摄像头抖动情况，以获取blendshape权重；

14、基于blendshape权重，将稳定的人脸框架数据其转换为适合神经网络处理的分辨率。

15、作为本专利技术进一步的方案：所述训练优化计算策略的步骤，具体包括：

16、增加数据模型的训练周期；

17、引导数据模型的学习过程。

18、本专利技术实施例的另一目的在于提供三维脸部嘴型运动转换系统，包括：

19、捕获模块，用于实时捕获人脸框架；

20、计算模块，用于计算捕获的人脸框架数据；

21、训练模块，用于训练优化计算策略；

22、模型压缩与网络选择模块，用于当所述计算策略在训练期间收敛并获得最佳性能后，对计算后的数据进行模型压缩与网络选择。

23、作为本专利技术进一步的方案：所述捕获模块包括：

24、录取单元，用于使用视频序列来实时捕获人脸动作；

25、检测单元，用于检测所述视频序列中的人脸并且跟踪关键点；

26、数据生成单元，用于提取所述关键点的权重，从而捕捉面部运动的细节，用以生成人脸框架数据。

27、作为本专利技术进一步的方案：所述计算模块包括：

28、网络异常值去除单元，用于去除所述人脸框架数据中的网络异常值，以得到稳定的人脸框架数据；

29、抖动处理单元，用于处理所述稳定的人脸框架数据中的不同光照和摄像头抖动情况，以获取blendshape权重；

30、数据转换单元，基于blendshape权重，将稳定的人脸框架数据其转换为适合神经网络处理的分辨率。

31、作为本专利技术进一步的方案：所述训练模块包括：

32、周期调整单元，用于增加数据模型的训练周期；

33、优化算法单元，用于引导数据模型的学习过程。

34、本专利技术实施例的另一目的在于提供电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述三维脸部嘴型运动转换方法的步骤。

35、本专利技术实施例的另一目的在于提供电子存储介质，所述电子存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述三维脸部嘴型运动转换方法的步骤。

36、本专利技术实施例的有益效果是：

37、①实时处理能力：本专利技术能够在无需外部服务器支持的情况下，在移动端设备上实现实时嘴型运动生成。实验数据表明，算法处理延迟低于89毫秒，满足实时交互的需求。

38、②复杂环境适应性：该技术方案能够适应不同的语言和发音特征，通过大量的数据集训练，其强大的泛化能力使得算法即便在嘈杂环境或者方言口音中也能保持较高的识别准确率。测试结果显示，在不同方言(普通话、粤语、潮汕方言、闽语话)环境对比下测试，准确率保持在98％以上。

39、③运算消耗降低：

40、本专利技术优化了计算流程，降低了对计算资源的需求。相对于现有技术，本专利技术在保证性能的同时，从原来的4090ti显卡降低到了1080ti显卡都能完美运行语音转嘴型运算，大大降低了显存的损耗。

41、④用户体验改进：

42、在应用如vr/ar、在线教育和视频会议系统中，通过提供更加自然的嘴型同步，显著提升了用户体验。用户调查显示，大部分用户认为本专利技术提供的虚拟角色交互体验比传统技术更加流畅和自然。

43、⑤技术突破和创新：

44、本专利技术在技术上突破了传统依赖于大量运算资源的限制，实现了移动端的轻量化部署，这在同行业中是首次实现，克服了业界对于移动端处理能力的偏见。

45、⑥商业价值和应用前景：根据商业价值评估报告，本专利技术可广泛应用于娱乐、教育、通信等多个行业，预计未来五年内将为相关产业创造超过50亿美元的市场价值。

本文档来自技高网...

【技术保护点】

1.三维脸部嘴型运动转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的三维脸部嘴型运动转换方法，其特征在于，所述实时捕获人脸框架的步骤，具体包括：

3.根据权利要求1所述的三维脸部嘴型运动转换方法，其特征在于，所述计算捕获的人脸框架数据的步骤，具体包括：

4.根据权利要求1所述的三维脸部嘴型运动转换方法，其特征在于，所述训练优化计算策略的步骤，具体包括：

5.三维脸部嘴型运动转换系统，其特征在于，包括：

6.根据权利要求5所述的三维脸部嘴型运动转换系统，其特征在于，所述捕获模块包括：

7.根据权利要求5所述的三维脸部嘴型运动转换系统，其特征在于，所述计算模块包括：

8.根据权利要求5所述的三维脸部嘴型运动转换系统，其特征在于，所述训练模块包括：

9.电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述三维脸部嘴型运动转换方法的步骤。

10.电子存储介质，其特

...

【技术特征摘要】

1.三维脸部嘴型运动转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的三维脸部嘴型运动转换方法，其特征在于，所述实时捕获人脸框架的步骤，具体包括：

3.根据权利要求1所述的三维脸部嘴型运动转换方法，其特征在于，所述计算捕获的人脸框架数据的步骤，具体包括：

4.根据权利要求1所述的三维脸部嘴型运动转换方法，其特征在于，所述训练优化计算策略的步骤，具体包括：

5.三维脸部嘴型运动转换系统，其特征在于，包括：

6.根据权利要求5所述的三维脸部嘴型运动转换系统，其特征在于，所述捕获模块包括：

7...

【专利技术属性】
技术研发人员：邝志勇，陆延杰，吴思聪，
申请(专利权)人：广东云集数字信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人