语音动画的实时生成制造技术

技术编号：29994054 阅读：41 留言：0更新日期：2021-09-11 04:34

为了以动画方式真实地显示字符串(诸如句子)，提供了一种分级搜索算法以按子字符串长度的递减顺序搜索该字符串的子字符串的存储示例(动画片段)，并且级联所检索的子字符串以完成语音动画的字符串。在一个实施方案中，实时生成语音动画使用模型视素来预测视素开始时的动画序列，并且使用基于查找表(数据驱动)的算法来预测视素转换处的动力学。具体摆出的模型视素可与使用另一种方法在要表达视素时的动画中的对应时间点处生成的语音动画调和。输出加权函数用于将语音输入和表情输入映射到基于肌肉的描述符加权中。到基于肌肉的描述符加权中。到基于肌肉的描述符加权中。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】语音动画的实时生成

[0001]本专利技术的实施方案涉及语音动画的实时生成。

技术介绍

[0002]用于以动画方式显示语音的计算机面部动画技术包括过程、数据驱动或基于表演捕获的技术。
[0003]语料库(文本集合)中的每个句子可被表示为音素序列(不同语音/声音的单位)和表示为视素序列(示出音素被发音的音素的视觉等效)。过程语音动画包括将音素转变为视素的规则或查找表。语音的3D动画曲线的在线实时生成可通过使用音素查找视素的动画序列来执行。此类方法受到动画序列的小型集的限制，因为呆板机械的动画、不真实的动画和重复的动画经常且尤其是在视素转换时被观察到。
[0004]数据驱动(统计)方法拼接来自大型语料库的面部动画数据的片段，以匹配输入语音轨道。面部动力学由多维形变模型、隐马尔可夫(Markov)模型和主动外观模型(AAM)捕获。数据驱动方法的质量通常受到可用数据的限制。统计模型直接驱动面部，从而控制面部远离动画器。
[0005]基于表演捕获的语音动画将所获取的运动数据从人类表演者传输到数字面部模型上。一种...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于以动画方式显示社交话语的方法，所述方法包括：接收：字符串，所述字符串要以动画方式显示，所述字符串包括多个社交话语原子，多个集合，每个集合包括多个项，所述多个项包括独特原子字符串，每个集合存储不同长度的项；并且每个项包括所述项的至少一个动画片段；在所述集合中以分级方式搜索与所述字符串的子字符串相匹配的项；检索所匹配的项的动画片段以覆盖社交话语原子；以及组合所检索的动画片段以动画方式显示所述字符串。2.根据权利要求1所述的方法，其中所述社交话语是语音。3.根据权利要求1或权利要求2所述的方法，其中所述分级顺序有利于更长的项。4.根据权利要求1至3中任一项所述的方法，其中至少一个项包括多个动画片段，并且动画片段被随机检索。5.根据权利要求1至3中任一项所述的方法，其中至少一个项包括多个动画片段，并且动画片段基于其持续时间来检索。6.根据权利要求1至3中任一项所述的方法，其中至少一个项包括多个动画片段，并且动画片段基于对应语音特征来检索。7.根据任一前述权利要求所述的方法，其中动画片段与声音相关联，所述声音与所述动画相对应。8.根据权利要求7所述的方法，所述方法包括以下步骤：压缩和/或拉伸动画片段以与所述声音相匹配，所述声音与所述动画相对应。9.根据任一前述权利要求所述的方法，其中所述多个集合中的每个集合中的所述项为一个项类型，所述项类型选自由以下各项组成的组：左半音、右半音、双音、句子边界双音、以元音为中心的三音、以辅音为中心的三音、句子边界三音、音节字词或单音节字词，以及多音节字词。10.根据任一前述权利要求所述的方法，其中所述项包括部分音素字符串。11.根据权利要求1至10中任一项所述的方法，其中动画片段存储基于骨骼的动画绑定器的变形参数。12.根据权利要求1至10中任一项所述的方法，其中动画片段存储基于肌肉的描述符权重。13.根据权利要求1至10中任一项所述的方法，其中动画片段存储调和形状权重。14.一种用于以动画方式显示语音的方法，所述方法包括：接收：要以动画方式显示的音素字符串，和多个动画片段，所述多个动画片段包括多音字符串和部分音素字符串，所述字符串被配置为在音素的最稳定部分处或附近级联；搜索并检索与所述音素字符串的子字符串相匹配的动画片段以覆盖所述音素字符串；以及组合所检索的动画片段以动画方式显示所述字符串。15.根据权利要求14所述的方法，其中部分音素为半音素。16.一种用于在上下文中以动画方...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：索美智能有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人