一种虚拟人物语音与口型同步的建模与控制方法技术

技术编号:18765481 阅读:316 留言:0更新日期:2018-08-25 11:26
本发明专利技术属于语音合成领域的虚拟人物姿态控制,具体涉及一种虚拟人物语音与口型同步的建模与控制方法。目的是减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作。该方法包括:产生待同步语音对应的音素序列;将音素序列转换为音素类别序列;将音素类别序列转换为静态口型配置序列;通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置;将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。该方法可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。

【技术实现步骤摘要】
一种虚拟人物语音与口型同步的建模与控制方法
本专利技术属于语音合成领域的虚拟人物姿态控制,具体涉及一种虚拟人物语音与口型同步的建模与控制方法。
技术介绍
虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用,并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。目前,给虚拟人物对口型是一项非常消耗时间和人力的工作,设计师需要根据音频的内容在时间轴上调整口型配置。一些基于机器学习的方法可以从大量口型动画中学习得到模型,并利用模型为其他输入语音产生口型。但这类方法依赖大量的口型动画作为训练数据,严重依赖数据量和标注工作。因此,如何减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作是目前亟需解决的问题。
技术实现思路
本专利技术提供一种虚拟人物语音与口型同步的建模与控制方法,无需口型动画数据标注量,并能够获得准确、自然流畅并与声音同步的口型动作。一种口型建模方法,包括如下方法:步骤一、将语音音素划分为不同的音素类别;步骤二、为每个音素类别定义一个静态发音姿态;步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。如上所述的口型建模方法,其中:步骤一中,所述语音音素分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为多个元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为多个辅音音素类别。如上所述的口型建模方法,其中:步骤二中,所述静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。如上所述的口型建模方法,其中:步骤三中,所述静态口型配置指虚拟人物渲染系统所定义的口型配置,形式为一个关键帧或一组口型关键点参数。一种虚拟人物语音与口型同步的控制方法,包括如下步骤:步骤一、产生待同步语音对应的音素序列,所述音素序列为排布在时间轴上的音素序列;步骤二、将音素序列转换为音素类别序列;步骤三,将音素类别序列转换为静态口型配置序列。步骤四,通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。步骤五,将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述步骤四包括:步骤4.1,将时间轴的单位转换为帧;步骤4.2,利用动态模型计算出动态变化的口型配置。如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述音素类别至少分为元音音素类别和辅音音素类别,所述元音音素根据开口度和唇形划分为若干类别,所述辅音音素根据发音部位划分为若干类别。如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述静态口型配置序列为关键帧或口型参数。如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述静态口型配置为对应音素类别的静态发音姿态。如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述动态模型为插值模型或动态系统。与现有技术相比,本专利技术具有以下优点:本专利技术提供的一种虚拟人物语音与口型同步的建模与控制方法,实现对虚拟人物口型的控制,使虚拟人物的口型与其语音内容同步。其应用场景包括:(1)控制虚拟人物的口型与语音合成器所产生的语音同步;(2)控制虚拟人物的口型与某个人所发出的语音同步。本专利技术基于语音识别和语音合成技术,可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。本专利技术通过将音素划分为不同的音素类别,并对各音素类别建立发音姿态,音素类别根据发音特征划分,有可以应用于世界上所有人类语言的优点。本专利技术通过利用关键帧或关键点参数对各音素类别的发音姿态建立静态口型配置,有参数物理意义直观、可解释性强,易于配置的优点。本专利技术利用音素在理想情况下,即发音完整的静态状态下的发音姿态建立关键帧或关键点参数,有标注工作量小的优点。本专利技术利用人体动力学先验知识,通过动态模型将时间轴上排布的静态口型配置序列转换为动态变化的口型配置,有模型物理意义明确、模型构建简单、不依赖于海量训练数据优点。附图说明图1为本专利技术提供的一种虚拟人物语音与口型同步的建模方法的流程图;图2为本专利技术提供的一种虚拟人物语音与口型同步的控制方法的流程图;图3为以基于口型参数的静态口型配置序列表示的“大家好”。图4为在图3基础上用二阶动态系统得到的口型参数。具体实施方式下面将介绍本专利技术的实施方式,但是应当意识到本专利技术并不局限于所介绍的实施方式,并且在不脱离基本思想的情况下本专利技术的各种变型都是可行的。因此本专利技术的范围仅由所附的权利要求确定。如图1所示,一种口型建模方法,包括如下步骤:步骤一、将语音音素划分为不同的音素类别。通常可将音素划分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为若干元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为若干辅音音素类别。该方法基于音素的发音特征进行类别划分,发音特征是普适于全人类语言的属性,因此该方法可以适用于世界上的任何语言。步骤二、为每个音素类别定义一个静态发音姿态。静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。每个音素都具有语音学意义上明确的静态发音位置,只需要为每个音素定义一个静态发音姿态。步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。虚拟人物渲染系统是电影、动画、游戏等领域中常用的数字信息系统,该系统可以将可配置的人物姿态渲染成三维或二维的图像及视频。人物的口型是由渲染系统中的口型配置决定的。静态口型配置指虚拟人物渲染系统所定义的口型配置,形式可以为一个关键帧,或一组关键点参数。如图2所示,一种虚拟人物语音与口型同步的控制方法,包括如下步骤:步骤一,产生待同步语音对应的音素序列。当待同步语音是语音合成器所产生的语音的情况下,语音合成器在合成语音的同时输出语音对应的音素序列及音素出现的起始时间点。当待同步语音是某个人所发出的语音的情况下,采用语音识别器识别语音并输出对应的音素序列及音素出现的起始时间点。音素序列指在时间轴上排布的若干音素,包含若干音素及其起始时间。具体地,以汉语句子“大家好。”为例,所述音素序列为:起始时间(毫秒)音素类别0SIL20D40A180J220I270A350H390A440O500SIL其中,音素中SIL为特殊符号,表示静音。再以英语句子“Hello.”为例,所述音素序列为:起始时间(毫秒)音素类别0SIL20h80ə160l200ə240ʊ300SIL步骤二,将音素序列根据所述音素划分方法转换为音素类别序列。例如,可将音素划分为元音音素和辅音音素,元音音素根据开口度和唇形划分为若干类别,具体地,以汉语为例,划分规则可以为:音素类别音素集合V_A{A}V_O{O}V_E{E}V_I{I}V_U{U}V_V{V}由于汉语的六个元音音素的开口度和唇形差异较大,所以本实施例中每个音素划分为一个类别,对于其他语言划分规则需要按实际情况调整。以英语为例,所述划分规则为:音素类别音素集合V_I{iː,ɪ}V_E{e}V_AE{æ}V_ER{ɜː,ə}V_A{ɑː,ʌ}V_O{ɔː,ɒ}V_U{uː,ʊ}辅音音素根据发音部位划分为若干类别,具体地,以汉语为例,所述划分规则可以为:音素类别音素集合本文档来自技高网...

【技术保护点】
1.一种口型建模方法,包括如下方法:步骤一、将语音音素划分为不同的音素类别;步骤二、为每个音素类别定义一个静态发音姿态;步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。

【技术特征摘要】
1.一种口型建模方法,包括如下方法:步骤一、将语音音素划分为不同的音素类别;步骤二、为每个音素类别定义一个静态发音姿态;步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。2.如权利要求1所述的口型建模方法,其特征在于:步骤一中,所述语音音素分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为多个元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为多个辅音音素类别。3.如权利要求1所述的口型建模方法,其特征在于:步骤二中,所述静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。4.如权利要求1所述的口型建模方法,其特征在于:步骤三中,所述静态口型配置指虚拟人物渲染系统所定义的口型配置,形式为一个关键帧或一组口型关键点参数。5.一种虚拟人物语音与口型同步的控制方法,包括如下步骤:步骤一、产生待同步语音对应的音素序列,所述音素序列为排布在时间轴上的音素序列;步骤二、将音素序列转换为音素类别序列;步骤三,将音素类别序列转换为...

【专利技术属性】
技术研发人员:朱风云陈博张志平庞在虎
申请(专利权)人:北京灵伴未来科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1