藏语TTVS系统的实现方法技术方案

技术编号:12988469 阅读:64 留言:0更新日期:2016-03-09 20:36
本发明专利技术提供了藏语TTVS系统的实现方法,根据MPEG-4标准定义了84个FDP特征点,建立三维人脸初始模型,并进行纹理映射;采用MPEG-4标准定义的FAP参数来描述藏语口型,利用照相机对藏语发音人的嘴唇进行拍照,并建立藏语口型库。在三维人脸初始模型的基础上结合FDP参数和藏语口型库得到三维人脸模型,并建立三维人脸模型库。利用已经准备好的藏语语料库,然后利用HMM模型进行聚类,得到HMM模型库。当藏语文本输入到藏语TTVS系统后,先对藏语文本进行文本分析,获得上下文相关标注和音位序列,利用参数生成算法生成声学参数,最后利用STRAIGHT算法合成出藏语语音。本发明专利技术的优点在于:实现三维人脸动画和合成的藏语语音同步播放。

【技术实现步骤摘要】

本专利技术涉及可视文语转换
,具体地涉及藏语TTVS系统的实现方法
技术介绍
随着计算机技术的发展,文字信息和声音信息已经不能满足人机交互的需要,而 视觉信息在人机交互过程中具有的直观、形象、友好等特点越来越受欢迎。将传统的文字 信息和声音信息与视觉信息相结合,形成直接由文本到可视语音的转换,即TTVS(Textto VisualSpeech)系统,此系统能够实现向计算机输入文本就可以让计算机发出文本对应声 音,同时计算机同步播放出说话人人脸动画,使人机交互界面更加友好、和谐。TTVS技术经 过近几十年的发展,从最初的存储静态图片顺序播放到现在的三维人脸实时合成动画的实 现,促进了人机交互技术的进一步发展。TTVS系统的实现通常有两种方法:参数控制法和 数据驱动法。对于数据驱动法来说,其优点是合成的人脸的真实感比较强,而模型的复杂度 较低,缺点是该方法只能合成固定的人脸,不能实现个性化。对于参数控制法,其优势是数 据量较小,控制起来比较灵活,可移植性较强,然而合成的人脸的真实感较差。当前,用参数 生成人脸的方法使用范围较广,这种方法是通过动画参数来驱动三维人脸模型,从而实现 人脸较为复杂的表情动作。 目前,TTVS技术在英语、汉语等语种中发展较为迅速,已取得了一系列的成果,但 是在一些少数民族语言中则发展相对滞后。例如分布在西藏、甘肃、四川等地的藏族地区, 藏语为该地区的主要交流语言,并且藏语地区涉及人口较多,语音可视技术的发展比较落 后,加之藏族语言语音资源和藏语口型参数不易获取等原因,使得藏语TTVS系统仍未实 现。因此,藏语TTVS系统的实现在藏语语音可视技术发展中具有重要意义,具有体现在藏 语人机对话,藏语语音教学,藏语发音障碍的治疗等领域。
技术实现思路
本专利技术为了解决上述现有技术的不足而提供的藏语TTVS系统的实现方法,该方 法解决了藏族语言语音资源和藏语口口型参数不易获取的问题。 为了实现上述目的,本专利技术所采用藏语TTVS系统的实现方法,该方法包括以下步 骤: 步骤1,获取人脸定义参数(FDP):该参数是用于定义人脸的纹理特征以及人脸的 几何信息。根据MPEG-4标准定义了 84个FDP特征点,分为11组,它描述关于眼、鼻、眉、齿、 舌、口等人脸重要特征部位的形状及位置; 步骤2,建立三维人脸模型:利用3DMax搭建三维人脸的初始模型,然后通过L0D简化技术去除多余的点、边、面,以简化该初始模型的网格数量,然后得到一个包含1137个 顶点和个三角形的人脸模型,并参照步骤1中的FDP参数来定义三维人脸模型的脸、眼睛、 鼻子、嘴、牙齿、舌、喉咙、头发的FDP参考值后,并自动生成相应的纹理映射,最后对三维人 脸模型进行图像的特征线变形得到具有真实感的三维人脸模型; 步骤3,定义藏语口型:在步骤2中仅仅是建立了一个静态的通用三维人脸模型, 还需要在该模型上赋予相应的藏语口型。根据藏语语言的现有研究成果,藏语和汉语同属 于汉藏语系,在发音上有很大的相似性。因此,在定义藏语口型时需要比较汉语和藏语的 声韵母的特点,在定义藏语口型时分为与汉语声韵母相同的藏语和与汉语声韵母不同的藏 语,声韵母相同的利用国际音标的发音口型来定义,声韵母不同的则需要进行自定义藏语 口型; 步骤4,描述藏语口型:在步骤3中定义了藏语的口型,需要用一定的参数来描述 他们。考虑到口型描述的通用性和灵活性,采用MPEG-4标准定义的FAP参数来描述。该参 数表示了较为全面的脸部动作集合,包含了 68个FAP参数,并分为10组,第一组包括2个 高级FAP,其余9组包括66个低级FAP; 步骤5,建立藏语口型库:在步骤4中完成了藏语口型的描述之后,需要确定所有 藏语声韵母口型的具体参数值。具体方法:首先用照相机在藏语发音人的正面对嘴唇进行 拍照,获取相应藏语口型的正面图像,然后对应口型指定的FDP特征点,计算每一个特征点 由嘴唇不发音位置到这个发音口型的位移,即可以得到这个发音口型的24个FAP值,并建 立藏语口型库; 步骤6,建立三维人脸模型库:结合步骤5得到藏语口型和步骤2得到的三维人脸 模型,建立三维人脸模型库; 步骤7,定义人脸动画关键帧:为了使步骤7中得到的藏语口型更加自然,需要对 藏语口型定义至少两个关键帧; 步骤8,准备藏语语料库:藏语语料库包含藏语的语音文件和标注文件。语音文件 是发音纯正的藏族人录制的藏语语音,标注文件是通过专业表音人手工标注的藏语声韵母 的时间标注; 步骤9,训练声学模型并建立模型库:从步骤8中获取到的藏语语料库中提取语音 参数,包括基频、谱参数和时长信息等,然后利用声学参数、单音素标注和上下文相关标注 训练每个发音基元(声韵母)的HMM模型,并在决策树问题集的指导下,对HMM模型进行聚 类,得到HMM模型库; 步骤10,提取藏语语音音位时长:从步骤9的声学参数中获取藏语语音时长信息, 音位时长能够保证藏语口型和藏语语音实现匹配; 步骤11,输入藏语文本:输入可视语音转换系统所需的藏语文本; 步骤12,文本分析:对步骤11中输入的藏语文本进行文本分析得到该文本的上下 文相关标注信息和音位序列; 步骤13,合成藏语语音:首先根据步骤12中获得的上下文相关标注信息,利用决 策树从步骤8中的HMM模型库中挑选出发音基元的HMM模型,并拼接到一起形成语句HMM 模型,然后利用参数生成算法生成声学参数,最后利用STRAIGHT算法合成出藏语语音; 步骤14,构建三维人脸动画和语音同步播放系统:利用步骤12中获得的音位序列 转换成FAP参数值,然后由步骤10中获得的音位时长、步骤6中的三维人脸模型库和该FAP 参数值合成三维人脸动画,同时由步骤13合成与人脸动画同步的藏语语音。 所述的步骤1到步骤7与所述步骤8到步骤13同时进行。 本专利技术利用现有的建模技术建立三维人脸模型;利用藏语发音特点定义藏语口 型,利用FAP参数描述定义好的藏语口型并确定藏语口型的FAP参数值,形成藏语口型库; 口型库和三维人脸模型结合形成三维人脸模型库,由FAP参数值、三维人脸模型库、音位时 长合成三维人脸动画。 准备藏语语料库,包括藏语语音文件和藏语文本文件,对语音提取语音声学参数, 训练HMM模型并建立HMM模型库;对输入的藏语文本后进行文本分析,得到音位序列和上下 文相关标注,经过决策树对HMM模型进行聚类,生成语音声学参数并合成藏语语音;最后, 实现三维人脸动画和藏语语音同步播放。【附图说明】 图1为本专利技术藏语TTVS系统的实现方法流程框图。 图2为建立三维人脸模型流程图。 图3为定义藏语口型流程图。 图4为确定藏语口型的FAP值流程图。 图5为建立藏语口型库流程图。 图6为准备藏语语料流程图。 图7为藏语声学模型的训练流程图。 图8为藏语文本分析流程图。 图9为人脸动画驱动不意图。 图10为三维人脸动画合成流程图。 图11为藏语语音合成流程图。 图12为人脸定义参数(FDP)特征点分布图。【具体实施方式】[当前第1页1 2 3 4 本文档来自技高网
...

【技术保护点】
藏语TTVS系统的实现方法,其特征在于包括下列步骤:步骤1,获取人脸定义参数(FDP);步骤2,建立三维人脸模型;步骤3,定义藏语口型;步骤4,描述藏语口型;步骤5,建立藏语口型库;步骤6,建立三维人脸模型库;步骤7,定义人脸动画关键帧;步骤8,准备藏语语料库;步骤9,训练声学模型并建立模型库;步骤10,提取藏语语音音位时长;步骤11,输入藏语文本;步骤12,文本分析;步骤13,合成藏语语音;步骤14,构建三维人脸动画和语音同步播放系统。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨鸿武张策陆晓燕郝东亮高海燕徐世鹏甘振业
申请(专利权)人:西北师范大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1