确定虚拟形象唇部动作的方法和装置制造方法及图纸

技术编号：23486592 阅读：28 留言：0更新日期：2020-03-10 13:23

本申请实施例公开了确定虚拟形象唇部动作的方法和装置。该确定虚拟形象唇部动作的方法包括：获取目标音频；将目标音频截断为目标音频片段序列；将目标音频片段序列中的各段目标音频片段分别输入唇部动作系数模型，得到时序对应的唇部动作系数序列；基于唇部动作系数序列，驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作。该方法从音频直接生成与虚拟形象唇部动作相对应的唇部动作系数，再基于唇部动作系数生虚拟形象的唇部动作，可以满足与用户交互中的实时性。同时，因为唇部动作系数是系数不是图像，并不局限于特定的虚拟形象，可以满足不同应用场景的需求。

Methods and devices for determining lip movement of virtual image

全部详细技术资料下载

【技术实现步骤摘要】
确定虚拟形象唇部动作的方法和装置
本申请涉及计算机
，具体涉及计算机网络
，尤其涉及确定虚拟形象唇部动作的方法和装置。
技术介绍
当前行业内的虚拟形象大多通过动画师的人工调整或者复杂的面部动作捕捉设备来实现虚拟形象的嘴部动作与音频的对应关系。然而，通过人工绘制或者动作捕捉设备人为调整虚拟形象的嘴部动作使其与音频相对应，需要较多的人工精细调整，无法做到与用户的实时交互。
技术实现思路
本申请实施例提供了确定虚拟形象唇部动作的方法和装置。第一方面，本申请实施例提供了一种确定虚拟形象唇部动作的方法，包括：获取发音人的音频样本以及音频样本所对应的视频样本；将音频样本截断为音频样本片段序列；基于视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数；将音频样本片段与唇部动作系数相对应，得到训练样本；采用训练样本训练卷积神经网络的初始模型，得到训练完成的唇部动作系数模型。在一些实施例中，将音频样本截断为音频样本片段序列包括：基于视频样本每秒播放的帧数，确定...

【技术保护点】
1.一种确定唇部动作系数模型的方法，包括：/n获取发音人的音频样本以及所述音频样本所对应的视频样本；/n将所述音频样本截断为音频样本片段序列；/n基于所述视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数；/n将所述音频样本片段与所述唇部动作系数相对应，得到训练样本；/n采用所述训练样本训练卷积神经网络的初始模型，得到训练完成的唇部动作系数模型。/n

【技术特征摘要】
1.一种确定唇部动作系数模型的方法，包括：
获取发音人的音频样本以及所述音频样本所对应的视频样本；
将所述音频样本截断为音频样本片段序列；
基于所述视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数；
将所述音频样本片段与所述唇部动作系数相对应，得到训练样本；
采用所述训练样本训练卷积神经网络的初始模型，得到训练完成的唇部动作系数模型。

2.根据权利要求1所述的方法，其中，所述将音频样本截断为音频样本片段序列包括：
基于所述视频样本每秒播放的帧数，确定所述音频样本片段序列中的各段音频样本片段的时长。

3.根据权利要求1所述的方法，其中，基于所述视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数包括：
提取所述视频样本的唇部关键点；
计算各个唇部动作基与对应的唇部动作系数的加权和；
基于所述加权和的以下约束确定所述唇部动作系数：所述加权和在屏幕上的投影与所述唇部关键点的误差最小，且所述加权和中的各唇部动作系数大于等于0小于等于1。

4.根据权利要求3所述的方法，其中，所述提取所述视频样本的唇部关键点包括以下任意一项：
采用神经网络模型提取所述视频样本的唇部关键点；
采用主观形状模型提取所述视频样本的唇部关键点；
采用主动外观模型提取所述视频样本的唇部关键点；
采用有约束的局部模型提取所述视频样本的唇部关键点；
采用监督下降模型提取所述视频样本的唇部关键点。

5.一种确定虚拟形象唇部动作的方法，包括：
获取目标音频；
将所述目标音频截断为目标音频片段序列；
将所述目标音频片段序列中的各段目标音频片段分别输入如权利要求1-4任意一项所述的唇部动作系数模型，得到时序对应的唇部动作系数序列；
基于所述唇部动作系数序列，驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作。

6.根据权利要求5所述的方法，其中，所述基于所述唇部动作系数序列，驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作包括：
对所述唇部动作系数序列中相邻的唇部动作系数进行滤波处理，得到滤波后的唇部动作系数序列；
将所述滤波后的唇部动作系数序列输出至前端，驱动目标虚拟人物做出与滤波后的唇部动作系数序列相对应的唇部动作。

7.根据权利要求5所述的方法，其中，所述将所述目标音频截断为音频序列包括以下至少一项：
基于训练所述唇部动作系数模型的视频样本每秒播放的帧数，确定所述目标音频片段序列中的各段目标音频片段的时长；以及
若将所述目标音频截断为目标音频片段序列时末段音频的时长不足，将末段音频的不足部分补零。

8.一种确定唇部动作系数模型的装置，包括：
样本获取单元，被配置成获取发音人的音频样本以及所述音频样本所对应的视频样本；
样本截断单元，被配置成将所述音频样本截断为音频样本片段序列；
系数确...

【专利技术属性】
技术研发人员：袁瀚，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人