一种众多三维形象同时发音面部模拟方法、介质及系统技术方案

技术编号:38377982 阅读:11 留言:0更新日期:2023-08-05 17:37
本发明专利技术提供了一种众多三维形象同时发音面部模拟方法、介质及系统,属于三维虚拟形象技术领域,该众多三维形象同时发音面部模拟方法包括:根据每个三维形象需要发音的时序文本设置面部关键点时序集,所述面部表情时序集包括口型关键点时序集,眼部关键点序列以及其它关键点时序集;根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选;同步播放三维场景和发音的时序文本对应的音频,利用筛选后的面部关键点时序集对三维形象的面部进行调整;可以有效降低每个时刻的面部关键点的数量,解决了当虚拟形象数量增多,则存在会大量消耗系统资源进行模拟,导致仿真画面卡顿的技术问题。题。题。

【技术实现步骤摘要】
一种众多三维形象同时发音面部模拟方法、介质及系统


[0001]本专利技术属于三维虚拟形象
,具体而言,涉及一种众多三维形象同时发音面部模拟方法、介质及系统。

技术介绍

[0002]三维形象模拟是一种利用计算机技术对真实世界进行建模和模拟的方法。它可以用于设计游戏、电影特效、等众多领域。当前,三维形象模拟已经取得了许多令人瞩目的成就,但仍存在一些难点和挑战。当前一些三维游戏或三维电影以及三维虚拟形象交互领域,存在众多三维形象同时说话的需求,为了提高三维形象发音时的仿真程度和自然度,由于每个三维形象发音说话时的面部表情不同,因此需要消耗大量的GPU资源去处理不同三维形象发音时的面部表情。
[0003]公开号为CN115437538A的中国专利技术专利(申请号:CN202211162914.9)公开了一种虚拟形象表情控制方法及相关装置,表情合成设备获取虚拟形象播报目标内容时,虚拟形象的初始表情控制参数及口型控制参数;将初始表情控制参数中的唇部控制参数与口型控制参数进行融合,获得目标表情控制参数;控制虚拟形象生成与目标表情控制参数相匹配的面部表情。如此,使得虚拟形象在播报目标内容时面部表情与嘴型衔接的更加自然,以达到虚拟形象在说话时的口型在保持与目标内容高度相关的前提下,同时能够在不同情感状态及强度下有不同呈现效果的目的。
[0004]上述专利技术针对的是单一虚拟形象的面部表情模拟,当虚拟形象数量增多,则存在会大量消耗系统资源进行模拟,导致仿真画面卡顿的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术提供一种众多三维形象同时发音面部模拟方法、介质及系统,能够解决当虚拟形象数量增多,需要大量消耗系统资源进行模拟,导致仿真画面卡顿的技术问题。
[0006]本专利技术是这样实现的:
[0007]本专利技术的第一方面提供一种众多三维形象同时发音面部模拟方法,其中,包含以下步骤:
[0008]根据每个三维形象需要发音的时序文本设置面部关键点时序集,所述面部表情时序集包括口型关键点时序集,眼部关键点序列以及其它关键点时序集;
[0009]根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选;
[0010]同步播放三维场景和发音的时序文本对应的音频,利用筛选后的面部关键点时序集对三维形象的面部进行调整;
[0011]其中所述时序文本包括文字以及文字对应的时刻;所述面部关键点为Dlib算法中的人脸识别的68个关键点,所述口型关键点为所述68个关键点中序号为48~67的关键点,
所述眼部关键点为所述68个关键点中序号为36~47的关键点,所述其它关键点为所述68个关键点中的序号为0~35的关键点。
[0012]本专利技术提供的一种众多三维形象同时发音面部模拟方法的技术效果如下:通过根据每个三维形象与三维场景观查点的相对位置对所述面部关键点时序集的关键点进行筛选,可以有效降低每个时刻的面部关键点的数量,当在三维场景播放时,所需根据面部关键点进行关键帧调节的数量降低,能够降低GPU资源的消耗。
[0013]在上述技术方案的基础上,本专利技术的一种众多三维形象同时发音面部模拟方法还可以做如下改进:
[0014]其中,所述根据每个三维形象需要发音的时序文本设置面部关键点时序集的步骤,具体包括:
[0015]利用预先训练好的时序文本音素模型对所述时序文本进行计算,得到时序音素集;
[0016]在预先设置好的音素面部数据库中,选择所述时序音素集中每个时序音素对应的口型关键点,作为所述面部表情时序集中的口型关键点时序集;选择所述时序音素集中每个时序音素对应的眼部关键点,作为所述面部表情时序集中的眼部关键点时序集;选择所述时序音素集中每个时序音素对应的其他关键点,作为所述面部表情时序集中的其他关键点时序集。
[0017]采用上述改进方案的有益效果为:由于人们在发音时,每个文本的字的发音时长并非相同,不同的文字在不同的语句环境,和不同的词语中的发音时长也不尽相同,因此利用预先训练好的时序文本音素模型对所述时序文本进行计算,得到时序音素集,可以对所述时序文本中每个文字的发音时长结合上下文进行更加准确的计算,避免了虚拟形象在发音时出现“单字蹦”的现象,让观众对虚拟形象的发音感觉流畅自然。
[0018]进一步的,所述时序文本音素模型的建立和训练步骤,具体包括:
[0019]采集多组历史时序文本以及历史时序文本对应的发音录像;
[0020]建立文本音素训练集,所述文本音素训练集的输入为多组历史时序文本,所述文本音素训练集的输出为所述多组历史时序文本对应的发音录像;
[0021]利用卷积神经网络建立时序文本音素模型雏形,利用文本音素训练集进行训练,得到时序文本音素模型;
[0022]所述音素面部数据库的构建步骤,具体包括:
[0023]将所述历史时序文本对应的发音录像,对发音录像中的音频进行音素拆分,得到历史音素时序集;
[0024]选择所述历史音素时序集中的每个音素对应的发音录像的多个视频帧作为历史音素视频帧集;
[0025]对历史音素视频帧集中的每一帧进行面部关键点标记,得到历史音素关键点集;
[0026]对所述历史音素关键点集中每个序号的多个关键点进行聚类,将聚类中心作为所述历史音素时序集中每个音素的面部关键点中对应序号的关键点。
[0027]采用上述改进方案的有益效果为:由于人们在在发音时的面部关键点不是瞬间变化,而是持续一段时间,往往每个音素在发音时对应的面部关键点是基本一样的,因此,对所述历史音素关键点集中每个序号的多个关键点进行聚类,将聚类中心作为所述历史音素
时序集中每个音素的面部关键点中对应序号的关键点的步骤,能够将每个音素对应的面部关键点进行聚类选择,避免了每个音素对应多个面部关键点。
[0028]进一步的,所述根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选的步骤,具体为:
[0029]以观察点作为三维场景世界坐标系的原点;
[0030]按照三维形象面部区域大小将三维形象划分为第一类三维形象、第二类三维形象、第三类三维形象以及第四类三维形象;
[0031]其中,第一类三维形象的面部关键点包括口型关键点、眼部关键点以及其他关键点;
[0032]第二类三维形象的面部关键点包括口型关键点和眼部关键点;
[0033]第三类三维形象的面部关键点包括口型关键点;
[0034]第四类三维形象的面部关键点为空;
[0035]其中,按照三维形象面部区域大小将三维形象划分的方法为:
[0036]将屏幕平均分为64个小方格,将64个小方格的尺寸相同的正方形记为第一长方形;第一长方形的长边组成的正方形记为第一正方形;
[0037]将屏幕平均分为100个小方格,将100个小方格的尺寸相同的正方形记为第二长方形;第二长方形的长边组成的正方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种众多三维形象同时发音面部模拟方法,其特征在于,包含以下步骤:根据每个三维形象需要发音的时序文本设置面部关键点时序集,所述面部表情时序集包括口型关键点时序集,眼部关键点序列以及其它关键点时序集;根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选;同步播放三维场景和发音的时序文本对应的音频,利用筛选后的面部关键点时序集对三维形象的面部进行调整;其中所述时序文本包括文字以及文字对应的时刻;所述面部关键点为Dlib算法中的人脸识别的68个关键点,所述口型关键点为所述68个关键点中序号为48~67的关键点,所述眼部关键点为所述68个关键点中序号为36~47的关键点,所述其它关键点为所述68个关键点中的序号为0~35的关键点。2.根据权利要求1所述的一种众多三维形象同时发音面部模拟方法,其特征在于,所述根据每个三维形象需要发音的时序文本设置面部关键点时序集的步骤,具体包括:利用预先训练好的时序文本音素模型对所述时序文本进行计算,得到时序音素集;在预先设置好的音素面部数据库中,选择所述时序音素集中每个时序音素对应的口型关键点,作为所述面部表情时序集中的口型关键点时序集;选择所述时序音素集中每个时序音素对应的眼部关键点,作为所述面部表情时序集中的眼部关键点时序集;选择所述时序音素集中每个时序音素对应的其他关键点,作为所述面部表情时序集中的其他关键点时序集。3.根据权利要求2所述的一种众多三维形象同时发音面部模拟方法,其特征在于,所述时序文本音素模型的建立和训练步骤,具体包括:采集多组历史时序文本以及历史时序文本对应的发音录像;建立文本音素训练集,所述文本音素训练集的输入为多组历史时序文本,所述文本音素训练集的输出为所述多组历史时序文本对应的发音录像;利用卷积神经网络建立时序文本音素模型雏形,利用文本音素训练集进行训练,得到时序文本音素模型;所述音素面部数据库的构建步骤,具体包括:将所述历史时序文本对应的发音录像,对发音录像中的音频进行音素拆分,得到历史音素时序集;选择所述历史音素时序集中的每个音素对应的发音录像的多个视频帧作为历史音素视频帧集;对历史音素视频帧集中的每一帧进行面部关键点标记,得到历史音素关键点集;对所述历史音素关键点集中每个序号的多个关键点进行聚类,将聚类中心作为所述历史音素时序集中每个音素的面部关键点中对应序号的关键点。4.根据权利要求3所述的一种众多三维形象同时发音面部模拟方法,其特征在于,所述根据每个三维形象面部区域大小以及三维场景观察点的相对位置对所述面部关键点时序集的关键点进行筛选的步骤,具体为:以观察点作为三维场景世界坐标系的原点;按照三维形象面部区域大小将三维形象划分为第一类三维形象、第二类三维形象、第
三类三维形象以及第...

【专利技术属性】
技术研发人员:周安斌晏武志潘见见郑建华
申请(专利权)人:山东金东数字创意股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1