一种众多三维形象同时发音面部模拟方法、介质及系统技术方案

技术编号：38377982 阅读：11 留言：0更新日期：2023-08-05 17:37

本发明专利技术提供了一种众多三维形象同时发音面部模拟方法、介质及系统，属于三维虚拟形象技术领域，该众多三维形象同时发音面部模拟方法包括：根据每个三维形象需要发音的时序文本设置面部关键点时序集，所述面部表情时序集包括口型关键点时序集，眼部关键点序列以及其它关键点时序集；根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选；同步播放三维场景和发音的时序文本对应的音频，利用筛选后的面部关键点时序集对三维形象的面部进行调整；可以有效降低每个时刻的面部关键点的数量，解决了当虚拟形象数量增多，则存在会大量消耗系统资源进行模拟，导致仿真画面卡顿的技术问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种众多三维形象同时发音面部模拟方法、介质及系统

[0001]本专利技术属于三维虚拟形象
，具体而言，涉及一种众多三维形象同时发音面部模拟方法、介质及系统。

技术介绍

[0002]三维形象模拟是一种利用计算机技术对真实世界进行建模和模拟的方法。它可以用于设计游戏、电影特效、等众多领域。当前，三维形象模拟已经取得了许多令人瞩目的成就，但仍存在一些难点和挑战。当前一些三维游戏或三维电影以及三维虚拟形象交互领域，存在众多三维形象同时说话的需求，为了提高三维形象发音时的仿真程度和自然度，由于每个三维形象发音说话时的面部表情不同，因此需要消耗大量的GPU资源去处理不同三维形象发音时的面部表情。
[0003]公开号为CN115437538A的中国专利技术专利(申请号：CN202211162914.9)公开了一种虚拟形象表情控制方法及相关装置，表情合成设备获取虚拟形象播报目标内容时，虚拟形象的初始表情控制参数及口型控制参数；将初始表情控制参数中的唇部控制参数与口型控制参数进行融合，获得目标表情控制参数；控制虚拟形象生成与目标表情控制参数相匹配的面部表情。如此，使得虚拟形象在播报目标内容时面部表情与嘴型衔接的更加自然，以达到虚拟形象在说话时的口型在保持与目标内容高度相关的前提下，同时能够在不同情感状态及强度下有不同呈现效果的目的。
[0004]上述专利技术针对的是单一虚拟形象的面部表情模拟，当虚拟形象数量增多，则存在会大量消耗系统资源进行模拟，导致仿真画面卡顿的技术问题。

技术实现思路

[000...

【技术保护点】

【技术特征摘要】
1.一种众多三维形象同时发音面部模拟方法，其特征在于，包含以下步骤：根据每个三维形象需要发音的时序文本设置面部关键点时序集，所述面部表情时序集包括口型关键点时序集，眼部关键点序列以及其它关键点时序集；根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选；同步播放三维场景和发音的时序文本对应的音频，利用筛选后的面部关键点时序集对三维形象的面部进行调整；其中所述时序文本包括文字以及文字对应的时刻；所述面部关键点为Dlib算法中的人脸识别的68个关键点，所述口型关键点为所述68个关键点中序号为48～67的关键点，所述眼部关键点为所述68个关键点中序号为36～47的关键点，所述其它关键点为所述68个关键点中的序号为0～35的关键点。2.根据权利要求1所述的一种众多三维形象同时发音面部模拟方法，其特征在于，所述根据每个三维形象需要发音的时序文本设置面部关键点时序集的步骤，具体包括：利用预先训练好的时序文本音素模型对所述时序文本进行计算，得到时序音素集；在预先设置好的音素面部数据库中，选择所述时序音素集中每个时序音素对应的口型关键点，作为所述面部表情时序集中的口型关键点时序集；选择所述时序音素集中每个时序音素对应的眼部关键点，作为所述面部表情时序集中的眼部关键点时序集；选择所述时序音素集中每个时序音素对应的其他关键点，作为所述面部表情时序集中的其他关键点时序集。3.根据权利要求2所述的一种众多三维形象同时发音面部模拟方法，其特征在于，所述时序文本音素模型的建立和训练步骤，具体包括：采集多组历史时序文本以及历史时序文本对应的发音录像；建立文本音素训练集，所述文本音素训练集的输入为多组历史时序文本，所述文本音素训练集的输出为所述多组历史时序文本对应的发音录像；利用卷积神经网络建立时序文本音素模型雏形，利用文本音素训练集进行训练，得到时序文本音素模型；所述音素面部数据库的构建步骤，具体包括：将所述历史时序文本对应的发音录像，对发音录像中的音频进行音素拆分，得到历史音素时序集；选择所述历史音素时序集中的每个音素对应的发音录像的多个视频帧作为历史音素视频帧集；对历史音素视频帧集中的每一帧进行面部关键点标记，得到历史音素关键点集；对所述历史音素关键点集中每个序号的多个关键点进行聚类，将聚类中心作为所述历史音素时序集中每个音素的面部关键点中对应序号的关键点。4.根据权利要求3所述的一种众多三维形象同时发音面部模拟方法，其特征在于，所述根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选的步骤，具体为：以观察点作为三维场景世界坐标系的原点；按照三维形象面部区域大小将三维形象划分为第一类三维形象、第二类三维形象、第
三类三维形象以及第...

【专利技术属性】
技术研发人员：周安斌，晏武志，潘见见，郑建华，
申请(专利权)人：山东金东数字创意股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人