富有情感表达能力的三维可视化中文普通话发音词典的发音方法技术

技术编号：9061058 阅读：274 留言：0更新日期：2013-08-22 00:09

本发明专利技术提供一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，涉及语音可视化、语言教学、发音器官动画、人脸动画技术领域，该方法不仅产生发音器官动画，也同时产生具有生动表情的人脸动画，该方法有如下特性：(1)基于真实捕捉的运动数据和发音器官的生理运动机理和隐马尔可夫模型，使得建立的发音器官动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；(2)利用生理模型的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势，将数据驱动模型嵌入到生理模型中，从而生成高真实感的人脸动画。对该系统的客观性能测试和主观互动测试验证了其在智能辅助语言教学方面的有效性。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，基于真实捕捉的运动数据和发音器官的生理运动机理，并采用隐马尔可夫模型建立的发音器官运动模型；该发音器官运动模型，其表现的动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；该发音器官运动模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势；将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画；其中，首先采集母语是中文普通话的训练者的数据集，并据此来构建可视化发音词典系统，然后该系统能够指导母语不是中文普通话的学习者能够有效地学习该语言的发音过程；具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA(Electro?Magnetic?Articulography)记录下3D发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息；在录制发音器官运动数据时，将10个传感器贴在头部某些位置，用来记录头部和发音器官舌、上唇和下唇的运动；选取三个...

【技术特征摘要】

【专利技术属性】
技术研发人员：於俊，江辰，汪增福，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人