一种虚拟人物语音与口型同步的建模与控制方法技术

技术编号：18765481 阅读：316 留言：0更新日期：2018-08-25 11:26

本发明专利技术属于语音合成领域的虚拟人物姿态控制，具体涉及一种虚拟人物语音与口型同步的建模与控制方法。目的是减少口型动画数据标注量，并获得准确、自然流畅并与声音同步的口型动作。该方法包括：产生待同步语音对应的音素序列；将音素序列转换为音素类别序列；将音素类别序列转换为静态口型配置序列；通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置；将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象，同步配合语音信号进行展示。该方法可以不依赖于口型动画数据，并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。

全部详细技术资料下载

【技术实现步骤摘要】
一种虚拟人物语音与口型同步的建模与控制方法
本专利技术属于语音合成领域的虚拟人物姿态控制，具体涉及一种虚拟人物语音与口型同步的建模与控制方法。
技术介绍
虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用，并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。目前，给虚拟人物对口型是一项非常消耗时间和人力的工作，设计师需要根据音频的内容在时间轴上调整口型配置。一些基于机器学习的方法可以从大量口型动画中学习得到模型，并利用模型为其他输入语音产生口型。但这类方法依赖大量的口型动画作为训练数据，严重依赖数据量和标注工作。因此，如何减少口型动画数据标注量，并获得准确、自然流畅并与声音同步的口型动作是目前亟需解决的问题。
技术实现思路
本专利技术提供一种虚拟人物语音与口型同步的建模与控制方法，无需口型动画数据标注量，并能够获得准确、自然流畅并与声音同步的口型动作。一种口型建模方法，包括如下方法：步骤一、将语音音素划分为不同的音素类别；步骤二、为每个音素类别定义一个静态发音姿态；步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。如上所述的口型建模方法，其中：步骤一中，所述语音音素分为元音音素和辅音音素；对于元音音素，根据开口度和唇形将元音音素划分为多个元音音素类别；对于辅音音素，根据发音部位将辅音音素划分为多个辅音音素类别。如上所述的口型建模方法，其中：步骤二中，所述静态发音姿态指该类别的音素在理想情况下，即发音完整的静态状态下的发音姿态。如上所述的口型建模方法，其中：步骤三中，所述静态口型配置指虚拟人物渲染系统所定...

【技术保护点】
1.一种口型建模方法，包括如下方法：步骤一、将语音音素划分为不同的音素类别；步骤二、为每个音素类别定义一个静态发音姿态；步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。

【技术特征摘要】
1.一种口型建模方法，包括如下方法：步骤一、将语音音素划分为不同的音素类别；步骤二、为每个音素类别定义一个静态发音姿态；步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。2.如权利要求1所述的口型建模方法，其特征在于：步骤一中，所述语音音素分为元音音素和辅音音素；对于元音音素，根据开口度和唇形将元音音素划分为多个元音音素类别；对于辅音音素，根据发音部位将辅音音素划分为多个辅音音素类别。3.如权利要求1所述的口型建模方法，其特征在于：步骤二中，所述静态发音姿态指该类别的音素在理想情况下，即发音完整的静态状态下的发音姿态。4.如权利要求1所述的口型建模方法，其特征在于：步骤三中，所述静态口型配置指虚拟人物渲染系统所定义的口型配置，形式为一个关键帧或一组口型关键点参数。5.一种虚拟人物语音与口型同步的控制方法，包括如下步骤：步骤一、产生待同步语音对应的音素序列，所述音素序列为排布在时间轴上的音素序列；步骤二、将音素序列转换为音素类别序列；步骤三，将音素类别序列转换为...

【专利技术属性】
技术研发人员：朱风云，陈博，张志平，庞在虎，
申请(专利权)人：北京灵伴未来科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人