一种针对小语种口语发音评价方法、系统及存储介质技术方案

技术编号：28875311 阅读：19 留言：0更新日期：2021-06-15 23:09

本发明专利技术提供一种针对小语种口语发音评价方法、系统及存储介质。方法包括：获取目标文本、发音词典以及用户依据目标文本做出的朗读音频；利用语音识别模型，生成音素解码结果和音素的对齐结果；对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；对目标语音数据进行音高分析，得到音高分析结果；获取朗读音频的准确度得分、语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；对所述准确度得分、语调得分和声调得分进行融合处理，得到句子发音总得分。本发明专利技术针对小语种发音特点，从准确度、完整度、流利度、断句、声调、语调等多个不同维度对语音进行计算和分析，获得评价结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对小语种口语发音评价方法、系统及存储介质
本专利技术涉及语音识别及评价
，具体而言，尤其涉及一种针对小语种口语发音评价方法、系统及存储介质。
技术介绍
常见的口语发音测评系统多数针对应用较为广泛的英语设计，对于发音准确性的判断。通过对测试语音的特征参数和标准语音的特征参数做比较来获得口语语音的质量评价结果。上述方式无法在小发音单元的粒度上进行质量评价。评价结果也会受到发音人的个人发音特点的影响，比如：如果发音人和标准读音的朗读者的性别年龄一致，则评分会更高。此外，由于上述系统针对印欧语系的发音特点设计，应用于小语种(如日语)口语评价时，由于响应的评测维度区别，造成评价结果不准。
技术实现思路
根据上述提出现有语音评价系统不能适应小语种评价需求的技术问题，而提供一种针对小语种口语发音评价方法、系统及存储介质。本专利技术充分考虑了小语种的特点，设计了针对小语种语音的评测维度。通过将采集的朗读音频按所属语种的音拍对齐，计算各个音拍的声调高低，对单词的声调进行准确的评测。本专利技术采用的技术手段如下：一种针对小语种口语发音评价方法，包括：获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取音素的对齐结果；对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分...

【技术保护点】
1.一种针对小语种口语发音评价方法，其特征在于，包括：/n获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；/n利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取音素的对齐结果；/n对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；/n对目标语音数据进行音高分析，得到音高分析结果；/n基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；/n对所述第一评价结果、第二评价结果和第三评价结果进行融合处理，得到句子发音总得分。/n

【技术特征摘要】
1.一种针对小语种口语发音评价方法，其特征在于，包括：
获取目标文本、发音词典以及用户依据目标文本做出的朗读音频，并对所述朗读音频进行预处理，得到目标语音数据；
利用预先训练的语音识别模型，一方面对所述目标语音数据进行解码处理，生成音素解码结果，另一方面对所述目标语音数据进行基于目标文本的强制对齐处理，获取音素的对齐结果；
对目标文本进行基于所述语种发音特征的音拍分析，得到音拍分析结果；
对目标语音数据进行音高分析，得到音高分析结果；
基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分，将所述语调得分作为发音第二评价结果，将所述声调得分作为发音第三评价结果；
对所述第一评价结果、第二评价结果和第三评价结果进行融合处理，得到句子发音总得分。

2.根据权利要求1所述的针对小语种口语发音评价方法，其特征在于，所述基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分，包括根据以下公式计算音素准确度得分：

cost_per_framealign＝-log(P(f|qi))

其中，Si为音素发音准确度得分，NF(o)为口语朗读音频包含的语音帧数量，fis为起始帧号，fie为终止帧号，
P(f|qi)的含义是给定音素qi，在该帧发音为f的对数似然函数值，

的含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。

3.根据权利要求1所述的针对小语种口语发音评价方法，其特征在于，所述基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分，包括：
根据音素的对齐结果得到各个音拍在音频中的起止时间；
计算每个音拍的音高，获取音高特征曲线；
根据各个音拍在音频中的起止时间和所述音高特征曲线，算出各个音拍起止时间内的平均音高；
通过分析句尾的若干个音拍的平均音高来判断句子是平调或者是升调，并与预先配置的语调信息相比较，根据比较结果给出朗读音频的语调得分。

4.根据权利要求3所述的针对小语种口语发音评价方法，其特征在于，基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的声调得分，包括：
获取朗读音频中每个单词内所有音拍的音高信息，和预先配置的单词声调相比较，根据比较结果给出朗读音频的声调得分。

5.根据权利要求1所述的针对小语种口语发音评价方法，其特征在于，对所述第一...

【专利技术属性】
技术研发人员：杨海斌，徐敏，
申请(专利权)人：早道大连教育科技有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人