富有情感表达能力的三维可视化中文普通话发音词典的发音方法技术

技术编号:9061058 阅读:274 留言:0更新日期:2013-08-22 00:09
本发明专利技术提供一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法,涉及语音可视化、语言教学、发音器官动画、人脸动画技术领域,该方法不仅产生发音器官动画,也同时产生具有生动表情的人脸动画,该方法有如下特性:(1)基于真实捕捉的运动数据和发音器官的生理运动机理和隐马尔可夫模型,使得建立的发音器官动画具有与人脸动画相关的协调一致性,且能够充分描述连续语音动画中的协同发音现象;(2)利用生理模型的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势,将数据驱动模型嵌入到生理模型中,从而生成高真实感的人脸动画。对该系统的客观性能测试和主观互动测试验证了其在智能辅助语言教学方面的有效性。

【技术实现步骤摘要】

【技术保护点】
一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法,其特征在于,基于真实捕捉的运动数据和发音器官的生理运动机理,并采用隐马尔可夫模型建立的发音器官运动模型;该发音器官运动模型,其表现的动画具有与人脸动画相关的协调一致性,且能够充分描述连续语音动画中的协同发音现象;该发音器官运动模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势;将数据驱动模型嵌入到生理模型中,从而生成内容与力度多变、高真实感的人脸动画;其中,首先采集母语是中文普通话的训练者的数据集,并据此来构建可视化发音词典系统,然后该系统能够指导母语不是中文普通话的学习者能够有效地学习该语言的发音过程;具体过程是,训练者在朗读数据集中发音语料的时候,利用录音设备录入音频,与此同时同步地利用EMA(Electro?Magnetic?Articulography)记录下3D发音器官的运动轨迹,并且利用语音识别工具或人工标注得到音素级的时间同步信息;在录制发音器官运动数据时,将10个传感器贴在头部某些位置,用来记录头部和发音器官舌、上唇和下唇的运动;选取三个参考点:两侧耳后和鼻梁,记为H1,2,3;记录发音时头的旋转和平移运动;记录舌面上从舌尖到舌背上三个位置的运动,记为T1,2,3,T1距舌尖大约1cm,T1与T2,T2与T3之间相距大约1cm;此外,还有四个传感器L1,2,3,4分别记录左嘴角、上唇、下唇和右嘴角的运动,其中,T1,2,3和L1,2,3,4处传感器记录得到的运动是头部运动和发音器官运动两者之和;以H1,2,3为依据,经过适当的旋转和平移可以得到T1,2,3和L1,2,3,4在发音过程中的运动轨迹;然后对应到采用的人脸三维模型上的位置。...

【技术特征摘要】

【专利技术属性】
技术研发人员:於俊江辰汪增福
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1