一种基于深度学习的发音评测打分方法技术

技术编号：35865544 阅读：17 留言：0更新日期：2022-12-07 10:57

本发明专利技术涉及语音评测技术领域，具体涉及一种基于深度学习的发音评测打分方法。本发明专利技术通过语音识别的模型，用它来识别出音频的真实文本结果。然后是通过HMM

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的发音评测打分方法

[0001]本专利技术涉及语音评测
，具体涉及一种基于深度学习的发音评测打分方法，利用深度学习方法来实现发音评测过程中对音素的打分机制，使发音评测中的音素打分更加合理，更加准确。

技术介绍

[0002]口语在语言教育课程中越来越受到重视，师生一对一的交流与教学是提高英语口语最有效的方式，但很难满足众多口语学习者的需求。得益于计算机技术和发音评测技术的飞速进步，各种基于人工智能技术的口语评价方案相继落地。为学生提供额外的学习机会和丰富的学习资料，能够协助或代替教师指导学生进行更有针对性的发音练习，指出学生发音错误，提供有效的诊断反馈信息，评估学生的整体发音水平，有效提高学生的口语学习效率和口语水平。
[0003]发音评测目前的主流方法是基于隐马尔科夫
‑
深度神经网络(HMM
‑
DNN)模型获取语音的后验概率，然后与评测文本进行强制对齐后，使用GOP方法进行打分。
[0004]强制对齐方法可以达到很高的准确度，但这必须要满足一个前提：给定的文本和音频必须是匹配的。如果一个用户将I am a teacher读成了I was a teacher，在处理was所对应的音频片段时，会错误地将它和am对应的音素进行比对，那么很有可能造成后续的a和teacher也无法对齐到正确的位置，从而影响打分的准确性。

技术实现思路

[0005]为了解决上述问题，本专利技术提出一种基于深度学习的语音评测打分方法。首先通过一个语音识别模型...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的发音评测打分方法，其特征在于，包括如下步骤：首先通过语音识别的模型识别出音频的真实文本结果；其次是通过HMM
‑
DNN模型获取音频的后验概率；然后是使用音频的识别文本结果和音频的后验概率进行强制对齐，确定每一个音素的时间边界；最后是通过一个打分模型对音素进行打分；具体如下：步骤一，对待评测语音提取声学特征，送入到语音识别模型中，识别出待评测语音的真实文本结果；步骤二，将步骤一中提取的待评测语音的声学特征，送入到HMM
‑
DNN模型中，预测出每一帧的后验概率；步骤三，根据步骤一中识别出的文本结果和步骤二中得到的每一帧的后验概率，进行强制对齐，确定每一个音素的时间边界；步骤四，根据步骤三得到的每一个音素的时间边界和步骤二得到的每一帧的后验概率，计算出每一个音素的后验概率的平均值，然后将该音素的后验概率的平均值和该音素的元辅音、词性、声调、发音时长特征信息拼接在一起，送入到打分模型中，得到该音素的打分；步骤五，根据步骤一中识别出的文本结果和参考文本，进行音素对齐，确定哪些音素是多读和漏读的；步骤六，计算最终的得分，根据步骤五的多读和漏读情况计算出单词的得分和整个句子的得分。2.根据权利要求1所述的一种基于深度学习的发音评测打分方法，其特征在于，步骤一提取的声学特征为Fbank特征。3.根据权利要求1所述的一种基于深度学习的发音评测打分方法，其特征在于，步骤一语音识别模型使用wenet模型。4.根据权利要求1所述的一种基于深度学习的发音评测打分方法，其特征在于，步骤三进行强制对齐使用的是步骤一识别出的文本结果。5.根据权利要求1所述的一种基于深度学习的发音评测打分方法，其特征在于，步骤三采用贪心或者Viterbi算法进行，找出一条概率最大的路径，最终确定每一个音素的时间边界。6.根据权利要求1所述的一种基于深度学习的发音评测打分方法，其特征在于，步骤四打分模型使用的特征是该...

【专利技术属性】
技术研发人员：王龙标，李志刚，关昊天，王宇光，
申请(专利权)人：苏州智言信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人