基于深度神经网络后验概率算法的口语发音评测方法技术

技术编号:18595233 阅读:57 留言:0更新日期:2018-08-04 20:25
本发明专利技术公开了一种基于深度神经网络后验概率算法的口语发音评测方法。该方法包括以下步骤:从语音中选取一定数量的音频,其中每个音频的单词数量均在一定的范围内,计算各音频中的每个单词的音素的平均似然度、音素的平均EGOP和音素的平均时长概率;并将其作为输入项输入到神经网络,并输出单词的分数。本发明专利技术中的基于深度神经网络后验概率算法的口语发音评测方法从声学模型角度出发,利用LSTM建模提升音素识别率,还将FA的似然度和所有相近的音素似然度作对比,将GOP方法扩展为EGOP方法,并采用人工神经网络打分模型进行打分,从而得到准确的语音评测结果。

Speech recognition method based on deep neural network posterior probability algorithm

The invention discloses a spoken language pronunciation evaluation method based on a deep neural network posterior probability algorithm. The method includes the following steps: a certain number of audio is selected from speech, in which the number of words per audio is within a certain range, the average likelihood degree of phonemes of each word in each audio, the average EGOP of phonemes and the average long probability of phonemes are calculated, and they are input into the neural network as input terms. The score of the output word. In this invention, the oral speech evaluation method based on the deep neural network posterior probability algorithm is based on the acoustic model, uses LSTM modeling to improve the phoneme recognition rate, and compares the likelihood of FA with all similar phoneme likelihood, and extends the GOP method into the EGOP method, and uses the artificial neural network scoring model to carry out the method. Scoring, so as to get accurate speech evaluation results.

【技术实现步骤摘要】
基于深度神经网络后验概率算法的口语发音评测方法
本专利技术涉及发音评测领域,特别涉及一种基于深度神经网络后验概率算法的口语发音评测方法。
技术介绍
常用的语音评测技术,比如用于英语口语教学中的语音评测,一般都是采用智能打分技术对学习者的口语进行评测,而目前智能打分技术主要还是基于GOP(GoodnessOfPronunciation)方法。GOP方法依赖于两个过程,一个是强制对齐(ForcedAlignment,简称FA),一个是自由音素(FreePhoneme,简称FP)解码,其中FA就是基于声学模型和参考文本(即需要学习者跟读的文本)把每个单词的时间边界找到,同时得到每个单词的似然度(Likelihood);而FP解码是用同样的音频,但是其解码的单位是音素级别,每个音素可以跟任何其他音素,在最理想的情况下,即声学模型足够好,音素识别率100%准确的情况下,对于那些读的特别好的音频,FP解码出来的音素序列和参考文本扩展出来的音素序列几乎一致,而对于那些读的特别差的音频,FP解码出来的音素序列和参考文本扩展出来的音素序列几乎完全不同。一般来说,可以将FA和FP解码两个过程最终得到的两本文档来自技高网...

【技术保护点】
1.基于深度神经网络后验概率算法的口语发音评测方法,其特征在于:包括以下步骤a)从语音中选取一定数量的音频,其中每个音频的单词数量均在一定的范围内;b)计算各音频中的每个单词的音素的平均似然度;c)计算各音频中的每个单词的音素的平均EGOP;d)计算各音频中的每个单词的音素的平均时长概率;e)分别将各音频中的每个单词的音素的平均似然度、音素的平均EGOP和音素的平均时长概率作为输入项输入到一个人工神经网络打分模型,并输出单词的分数。

【技术特征摘要】
1.基于深度神经网络后验概率算法的口语发音评测方法,其特征在于:包括以下步骤a)从语音中选取一定数量的音频,其中每个音频的单词数量均在一定的范围内;b)计算各音频中的每个单词的音素的平均似然度;c)计算各音频中的每个单词的音素的平均EGOP;d)计算各音频中的每个单词的音素的平均时长概率;e)分别将各音频中的每个单词的音素的平均似然度、音素的平均EGOP和音素的平均时长概率作为输入项输入到一个人工神经网络打分模型,并输出单词的分数。2.根据权利要求1所述的基于深度神经网络后验概率算法的口语发音评测方法,其特征在于:选取音频的数量不超过10000条。3.根据权利要求2所述的基于深度神经网络后验概率算法的口语发音评测方法,其特征在于:每个音频的单词数量范围为1-20个。4.根据权利要求1所述的基于深度神经网络后验概率算法的口语发音评测方法,其特征在于:音素的平均似然度的计算方法为:计算单词中的各个音素的似然度,并取各个似然度的平均值为音素的平均似然度。5.根据权利要求1所述的基于深度神经网络后验概率算法的口语发音评测方法,其特征在于:音素的平均EGOP的...

【专利技术属性】
技术研发人员:徐祥荣
申请(专利权)人:苏州声通信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1