【技术实现步骤摘要】
【技术保护点】
一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法,其特征在于,基于真实捕捉的运动数据和发音器官的生理运动机理,并采用隐马尔可夫模型建立的发音器官运动模型;该发音器官运动模型,其表现的动画具有与人脸动画相关的协调一致性,且能够充分描述连续语音动画中的协同发音现象;该发音器官运动模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势;将数据驱动模型嵌入到生理模型中,从而生成内容与力度多变、高真实感的人脸动画;其中,首先采集母语是中文普通话的训练者的数据集,并据此来构建可视化发音词典系统,然后该系统能够指导母语不是中文普通话的学习者能够有效地学习该语言的发音过程;具体过程是,训练者在朗读数据集中发音语料的时候,利用录音设备录入音频,与此同时同步地利用EMA(Electro?Magnetic?Articulography)记录下3D发音器官的运动轨迹,并且利用语音识别工具或人工标注得到音素级的时间同步信息;在录制发音器官运动数据时,将10个传感器贴在头部某些位置,用来记录头部和发音器官舌、上唇和下唇的运动;选取三个 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。