【技术实现步骤摘要】
一种三维形象发音过程头部动作模拟方法
[0001]本专利技术属于三维虚拟形象
,具体而言,涉及一种三维形象发音过程头部动作模拟方法。
技术介绍
[0002]很多人说话都有会伴有微小的头部运动,在说话时个人并不注意,采用摄像机采集人脸说话图像时,由于人脸头部变更,需要对嘴部进行跟踪,从而带来大量的运算;另一方面,每个人说话时候的头部姿态的微小变更并不具有普遍性,在采集时刻需要忽略这些微小的头部姿态变更才能更快的采集人脸说话图像,提高处理效率。
[0003]授权号为CN111081270B的中国专利技术(申请号CN201911314031.3)公开了一种实时音频驱动的虚拟人物口型同步控制方法。该方法包括如下步骤:从实时语音流中识别出视素概率的步骤;对所述视素概率进行滤波的步骤;将所述视素概率的采样率转换为和虚拟人物渲染帧率相同的采样率的步骤;将所述视素概率转换为标准口型配置并进行口型渲染的步骤。该方法可以避免要求在传递音频流时同步传递音素序列或口型序列信息,可以显著降低系统复杂性、耦合度和实现难度,适用于各种在显示 ...
【技术保护点】
【技术特征摘要】
1.一种三维形象发音过程头部动作模拟方法,其特征在于,包含以下步骤:S10:从视频信号库中获取人脸视频及对应的音频,将视频帧和音频帧对齐,提取多帧的人脸图像、头部姿态和梅尔频谱作为训练样本;对人脸图像进行预处理,生成擦除嘴部后的面部图像;S20:建立三维形象头部模型并利用训练样本对三维形象头部模型进行训练,所述的三维形象头部模型包括音频特征提取模块、唇形同步模块、嘴部生成模块、头部姿态控制模块、以及融合模块,其中:所述音频特征提取模块用于对S10得到的梅尔频谱进行特征提取,生成最终音频特征;所述唇形同步模块用于根据最终音频特征生成多级唇形图像特征,并根据最后一级唇形图像特征生成唇形图像,计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失,所述的唇形损失包括均方误差损失和对比损失;所述嘴部生成模块用于根据多级唇形图像特征生成多级嘴部图像特征,并根据最后一级嘴部图像特征生成嘴部图像,计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失,所述的嘴部损失使用均方误差损失;所述头部姿态控制模块用于根据中心点生成头部图像特征;所述的融合模块用于将头部图像特征和多级嘴部图像特征融合到S10中所述的擦除嘴部后的面部图像中,计算融合损失,所述的融合损失使用PCONV网络对应的融合损失;并根据唇形损失、嘴部损失、融合损失的加权损失之和更新三维形象头部模型的参数;S30:利用训练好的三维形象头部模型,生成针对特定音频下的三维形象头部模型。2.根据权利要求1所述的一种三维形象发音过程头部动作模拟方法,其特征在于,所述视频信号库的建立方法为:步骤一:在实验人员的鼻尖处贴敷有反光外壁的塑料小球,在实验人员头部姿态关键点处贴敷黑色小纸片;步骤二:在实验人员的正对面设置摄像机,在实验人员脸部两侧设置信号发射端和接收端,其中信号发射端和接收端于所述塑料小球成一条直线,所述信号发射端和接收端间距1m;步骤三:以摄像机中心点为中心,建立三维坐标系,并开启信号发射端发出信号,开启摄像机,实验人员进行朗读;步骤四:实验人员朗读完毕后,将摄像机录制的人脸音视频及其对应接收端接收到的信号数据保存到视频信号库。3.根据权利要求2所述的一种三维形象发音过程头部动作模拟方法,其特征在于,所述S10具体包括:获取视频信号库中的视频,所述视频中的每一帧均包含完整的人脸图像,且包含人物说话的音频;根据视频对应的接收端接收到的信号数据判断实验人员的头部姿态是否发生变更;若实验人员的头部姿态未发生变更,则对视频中的所有帧提取人脸图像集合,截取人脸图像中的唇形部分作为样本唇形图像;若实验人员的头部姿态未发生变更,则对视频中所有帧提取塑料小球图像,在三维坐标系中建立塑料小球的三维坐标,并利用音素口型驱动法中的对应唇形作为样本唇形图
像;构建嘴部擦除网络,从人脸图像集合中随机取出部分人脸图像并标记嘴部位置,对嘴部擦除网络进行训练,利用训练后的嘴部擦除网络对未标记嘴部位置的人脸图像进行嘴部位置识别并擦除,保留面部图像;将时域的音频转化为频域的梅尔频谱,频域采样率与视频帧采样率一致。4.根据权利要求3所述的一种三维形象发音过程头部动作模拟方法,其特征在于,所述步骤”根据视频对应的接收端接收到的信号数据判断实验人员的头部姿态是否发生变更“具体包括:步骤1:对接收端接收到的信号进行数据处理;步骤2:使用扩展卡尔曼滤波方法实现小球检测;步骤3:利用所得的多径时延联合估计值计算得到似然比比值,利用所得的似然比比值与检测阈值进行比较,得到小球位置是否发生变更的检测结果;步骤4:若小球位置发生变更,则判定实验人员头部姿态发生变更;若小球位置未发生变更,则判定实验人员头部姿态未发生变更。5.根据权利要求4所述的一种三维形象发音过程头部动作模拟方法,其特征在于,所述步骤1具体包括:第一步:以频域形式表示发射端发射信号,其中,发射端发射信号的频域形式为S=[S(0),S(1),K,S(K
‑
1)],经过水下传播后,接收端接收到的信号频域形式为矩阵X;第二步:采用二元假设检验法对指定次数接收信号的频域形式进行参数估计,具体为:根据二元假设检验中不同假设H0和H1的检验方法,对第k次接收信号的频域形式X
k
(k=1,2,3,L)进行参数估计;第三步:采用EM时延估计算法计算直透波多径时延和小球散射波多径多径时延,具体为:使用EM时延估计算法得到直透波多径时延为和小球散射波多径多径时延为直透波和小球散射波声线条数分别设为M条和N条,表示每一条声线代表的时延估计值,时延估计值可以分别简写为和6.根据权利要求4所述的一种三维形象发音过程头部动作模拟方法,其特征在于,所述步骤2具体包括:第一步:根据扩展卡尔曼滤波的方法,建立扩展卡尔曼滤波的状态方程和观测方程,具体为:根据扩展卡尔曼滤波的方法,设定小球运动的状态量x=[x,v
x
,y,v
y
]
T
和观测量建立扩展卡尔曼滤波的状态方程和观测方程:x
k
=Fx
k
‑1+w
k
z
k
=h(x
k
)+v
k
其中:F是状态转移矩阵,由小球的运动形式确定,h(
·
)为观测函数,w
k
表示状态噪声矩阵,服从w
k
~N(0,Q)和v
k
为观测噪声矩阵,服从...
【专利技术属性】
技术研发人员:周安斌,晏武志,李鑫,彭辰,潘见见,
申请(专利权)人:山东金东数字创意股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。