联合音频视频面部动画系统技术方案

技术编号：24505925 阅读：66 留言：0更新日期：2020-06-13 08:03

本发明专利技术涉及一种联合自动音频视频驱动的面部动画系统，在一些示例实施例中，该系统包括具有强大语言模型的完整规模的最新的大型汇量连续语音识别(LVCSR)，用于语音识别和从词格中获得音素对齐。

Joint audio and video facial animation system

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】联合音频视频面部动画系统
本申请要求于2017年12月29日提交的美国专利申请序列号15/858,992的优先权的权益，其要求2017年10月26日提交的美国临时申请序列号62/577,548的优先权的权益。因此，本文要求保护它们的优先权，并且通过引用将其全部内容合并于此。
本公开的实施例总体上涉及移动计算技术，并且更具体地，但不限于此，涉及用于跟踪面部界标(faciallandmark)并基于音频和视频数据生成3D面部模型的系统。
技术介绍
研究表明，面部跟踪和性能捕获技术已在包括计算机游戏、动画、娱乐、人机接口在内的广泛领域中产生了重大影响。例如，一些研究表明，与仅利用纯文本脚本进行的相同交互相比，利用数字头像(例如动画人脸)进行交互的用户的可信度要高30％。现有的面部动画系统遵循以下两种技术之一：基于表演的面部动画；或语音驱动的面部动画。基于表演的面部动画是当前用于为游戏和电影生成逼真的角色面部动画的最受欢迎的技术。尽管有效，但这些技术需要特殊设备，例如主体上的物理标记，结构化的灯...

【技术保护点】
1.一种方法，包括：/n在客户端设备处接收音频数据和视频数据；/n基于所述视频数据确定面部界标集合的位置；/n基于所述面部界标集合的位置生成第一面部模型；/n基于所述音频数据生成第二面部模型；/n基于所述第一面部模型和所述第二面部模型构建复合面部模型；以及/n导致在所述客户端设备处显示所述复合面部模型。/n

【技术特征摘要】
【国外来华专利技术】20171026 US 62/577,548;20171229 US 15/858,9921.一种方法，包括：
在客户端设备处接收音频数据和视频数据；
基于所述视频数据确定面部界标集合的位置；
基于所述面部界标集合的位置生成第一面部模型；
基于所述音频数据生成第二面部模型；
基于所述第一面部模型和所述第二面部模型构建复合面部模型；以及
导致在所述客户端设备处显示所述复合面部模型。

2.根据权利要求1所述的方法，其中，在所述客户端设备处接收音频数据和视频数据还包括：
在所述客户端设备处接收视频，其中，所述视频包括所述音频数据和所述视频数据；以及
从所述视频中提取所述音频数据和所述视频数据。

3.如权利要求1所述的方法，其特征在于，所述客户端设备是第一客户端设备，并且导致显示所述复合面部模型包括：
生成包含所述复合面部模型的消息；以及
导致在第二客户端设备处显示消息的呈现，所述消息的呈现包括所述复合面部模型。

4.根据权利要求1所述的方法，其中，所述音频数据包括语音信号，并且基于所述音频数据生成所述第二面部模型还包括：
确定所述语音信号的音素序列；以及
基于所述音素序列生成所述第二面部模型。

5.根据权利要求1所述的方法，其中，所述方法还包括：
基于来自所述视频数据的面部界标集合的位置来识别用户；
从所述用户的用户简档中检索显示规范；以及
其中，基于所述第一面部模型、所述第二面部模型和所述显示规范构建所述复合面部模型。

6.根据权利要求1所述的方法，其中，基于所述第一面部模型和所述第二面部模型构建所述复合面部模型是实时发生的。

7.根据权利要求1所述的方法，其中，所述位置是第一位置集合，所述视频数据包括视频帧集合，并且所述方法还包括：
检测实时数据中的丢失；
响应于检测到所述实时数据中的丢失，解析所述视频数据以从所述视频帧集合中识别第一帧；
确定在所述视频数据的第一帧内所述面部界标集合的第二位置集合；以及
基于所述面部界标集合的第二位置集合来改变所述复合面部模型。

8.一种系统，包括：
存储器；以及
至少一个硬件处理器，其耦合到所述存储器并包括使所述系统执行操作的指令，所述操作包括：
在客户端设备处接收音频数据和视频数据；
基于所述视频数据确定面部界标集合的位置；
基于所述面部界标集合的位置生成第一面部模型；
基于所述音频数据生成第二面部模型；
基于所述第一面部模型和所述第二面部模型构建复合面部模型；以及
导致在所述客户端设备处显示所述复合面部模型。

9.根据权利要求8所述的系统，其中，在所述客户端设备处接收所述音频数据和所述视频数据，还包括：
在所述客户端设备处接收视频，其中，所述视频包括所述音频数据和所述视频数据；以及
从所述视频中提取所述音频数据和所述视频数据。

10.根据权利要求8所述的系统，其中，所述客户端设备是第一客户端设备，并且导致显示所述合成面部模型包括：
生成包含所述复合面部模型的消息；以及
导致在第二客户端设备处显示所述消息的呈现，所述消息的呈现包含所述复合面部模型。

【专利技术属性】
技术研发人员：曹晨，陈欣，W·楚，薛泽浩，
申请(专利权)人：斯纳普公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人