藏语TTVS系统的实现方法技术方案

技术编号：12988469 阅读：64 留言：0更新日期：2016-03-09 20:36

本发明专利技术提供了藏语TTVS系统的实现方法，根据MPEG-4标准定义了84个FDP特征点，建立三维人脸初始模型，并进行纹理映射；采用MPEG-4标准定义的FAP参数来描述藏语口型，利用照相机对藏语发音人的嘴唇进行拍照，并建立藏语口型库。在三维人脸初始模型的基础上结合FDP参数和藏语口型库得到三维人脸模型，并建立三维人脸模型库。利用已经准备好的藏语语料库，然后利用HMM模型进行聚类，得到HMM模型库。当藏语文本输入到藏语TTVS系统后，先对藏语文本进行文本分析，获得上下文相关标注和音位序列，利用参数生成算法生成声学参数，最后利用STRAIGHT算法合成出藏语语音。本发明专利技术的优点在于：实现三维人脸动画和合成的藏语语音同步播放。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及可视文语转换
，具体地涉及藏语TTVS系统的实现方法。
技术介绍
随着计算机技术的发展，文字信息和声音信息已经不能满足人机交互的需要，而视觉信息在人机交互过程中具有的直观、形象、友好等特点越来越受欢迎。将传统的文字信息和声音信息与视觉信息相结合，形成直接由文本到可视语音的转换，即TTVS(Textto VisualSpeech)系统，此系统能够实现向计算机输入文本就可以让计算机发出文本对应声音，同时计算机同步播放出说话人人脸动画，使人机交互界面更加友好、和谐。TTVS技术经过近几十年的发展，从最初的存储静态图片顺序播放到现在的三维人脸实时合成动画的实现，促进了人机交互技术的进一步发展。TTVS系统的实现通常有两种方法：参数控制法和数据驱动法。对于数据驱动法来说，其优点是合成的人脸的真实感比较强，而模型的复杂度较低，缺点是该方法只能合成固定的人脸，不能实现个性化。对于参数控制法，其优势是数据量较小，控制起来比较灵活，可移植性较强，然而合成的人脸的真实感较差。当前，用参数生成人脸的方法使用范围较广，这种方法是通过动画参数来驱动三维人脸模型，从而实现人脸较为复杂的表情动作。目前，TTVS技术在英语、汉语等语种中发展较为迅速，已取得了一系列的成果，但是在一些少数民族语言中则发展相对滞后。例如分布在西藏、甘肃、四川等地的藏族地区，藏语为该地区的主要交流语言，并且藏语地区涉及人口较多，语音可视技术的发展比较落后，加之藏族语言语音资源和藏语口型参数不易获取等原因，使得藏语TTVS系统仍未实现。因此，藏语TT...

【技术保护点】
藏语TTVS系统的实现方法，其特征在于包括下列步骤：步骤1，获取人脸定义参数(FDP)；步骤2，建立三维人脸模型；步骤3，定义藏语口型；步骤4，描述藏语口型；步骤5，建立藏语口型库；步骤6，建立三维人脸模型库；步骤7，定义人脸动画关键帧；步骤8，准备藏语语料库；步骤9，训练声学模型并建立模型库；步骤10，提取藏语语音音位时长；步骤11，输入藏语文本；步骤12，文本分析；步骤13，合成藏语语音；步骤14，构建三维人脸动画和语音同步播放系统。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨鸿武，张策，陆晓燕，郝东亮，高海燕，徐世鹏，甘振业，
申请(专利权)人：西北师范大学，
类型：发明
国别省市：甘肃;62

全部详细技术资料下载我是这个专利的主人