发音评测方法及装置、电子设备及可读存储介质制造方法及图纸

技术编号：37602149 阅读：18 留言：0更新日期：2023-05-18 11:53

本公开披露一种发音评测方法及装置、电子设备及可读存储介质，涉及语音处理领域。该发音评测方法包括：确定待评测音频数据和所述待测评音频数据对应的文本数据；基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。本公开实施例的发音评测方法通过发音评测模型，对待评测音频数据进行评测，结合错误类型进行评分，使得获得的评分结果更加精确，提高了发音评测模型的准确性。提高了发音评测模型的准确性。提高了发音评测模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
发音评测方法及装置、电子设备及可读存储介质

[0001]本公开涉及语音处理
，具体涉及发音评测方法及装置、电子设备及可读存储介质。

技术介绍

[0002]发音评测是计算机辅助语言学习(Computer Aided Language Learning，CALL)领域的一项重要任务，对音频数据进行评测，是许多口语考试和学习场景中必不可少的环节。传统的发音评测模型会对待评测音频数据的正确发音程度进行评测，再根据发音程度的得分计算获得整个待评测音频数据的评分。目前，传统的发音评测模型对待评测音频数据的评测准确性较低。

技术实现思路

[0003]有鉴于此，本公开提供一种发音评测方法及装置、电子设备及可读存储介质，通过发音评测模型获得待评测音频数据的错误类型和分数，发音评测模型能够结合错误类型进行评分，解决了传统的发音评测模型对待评测音频数据的评测准确性较低的问题。
[0004]第一方面，本公开一实施例提供的一种发音评测方法，包括：确定待评测音频数据和所述待测评音频数据对应的文本数据；基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进行评测，获得待评测音频数据的错误类型和分数，其中，发音评测模型利用自注意力机制和交叉注意力机制对待评测音频数据和待测评音频数据对应的文本数据进行评测，以得到待评测音频数据的错误类型和分数。
[0005]结合第一方面，在第一方面的某些实现方式中，在基于待评测音频数据和待测评音频数据对应的文本数据，利用发音评测模型对待评测音频数据进...

【技术保护点】

【技术特征摘要】
1.一种发音评测方法，其特征在于，包括：确定待评测音频数据和所述待测评音频数据对应的文本数据；基于所述待评测音频数据和所述待测评音频数据对应的文本数据，利用发音评测模型对所述待评测音频数据进行评测，获得所述待评测音频数据的错误类型和分数，其中，所述发音评测模型利用自注意力机制和交叉注意力机制对所述待评测音频数据和所述待测评音频数据对应的文本数据进行评测，以得到所述待评测音频数据的错误类型和分数。2.根据权利要求1所述的发音评测方法，其特征在于，在所述基于所述待评测音频数据和所述待测评音频数据对应的文本数据，利用发音评测模型对所述待评测音频数据进行评测，获得所述待评测音频数据的错误类型和分数之前，还包括：生成训练样本，其中，所述训练样本包括多个音频数据、所述多个音频数据各自对应的文本数据和所述多个音频数据各自对应的标签，所述标签包括错误类型标签和分数标签；将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型和预测分数；利用第一损失函数，基于所述多个音频数据各自对应的预测错误类型和错误类型标签，得到错误类型损失；利用第二损失函数，基于所述多个音频数据各自对应的预测分数和分数标签，得到分数损失；基于所述错误类型损失和所述分数损失，调整深度学习模型，得到所述发音评测模型。3.根据权利要求2所述的发音评测方法，其特征在于，所述标签还包括错误概率标签，所述多个音频数据包括至少一个非标准音频数据；所述将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型和预测分数，包括：将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误类型、预测分数和预测错误概率；所述发音评测方法还包括：利用第三损失函数，基于所述多个音频数据各自对应的错误概率标签，得到错误概率损失；所述基于所述错误类型损失和所述分数损失，调整深度学习模型，得到所述发音评测模型，包括：基于所述错误类型损失、所述分数损失和错误概率损失，调整深度学习模型，得到所述发音评测模型，其中，所述发音评测模型用于预测所述待评测音频数据的错误类型、错误概率和分数。4.根据权利要求3所述的发音评测方法，其特征在于，所述深度学习模型包括编码器和解码器，所述解码器包括文本数据处理层和三个并联的全连接层；所述将所述多个音频数据、所述多个音频数据各自对应的文本数据，输入深度学习模型，得到所述多个音频数据各自对应的预测错误...

【专利技术属性】
技术研发人员：王冰珏，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人