【技术实现步骤摘要】
发音检测方法及相关装置、电子设备、存储介质
[0001]本申请涉及人工智能
,特别是涉及一种发音检测方法及相关装置、电子设备、存储介质。
技术介绍
[0002]为适应全球化发展的趋势,自主外语学习系统变得越来越有吸引力。计算机辅助发音训练(Computer
‑
Assisted Pronunciation Training,CAPT)已经成为非母语说话者学习不同外语的有效工具。
[0003]在此过程中,需要对受测对象朗读特定文本的测试语音进行发音检测,以评估受测对象的发音水准。然而,目前的发音检测方式大多较为粗糙,仍然难以准确地评估发音水准。有鉴于此,如何提升发音检测的准确性成为亟待解决的问题。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种发音检测方法及相关装置、电子设备、存储介质,能够提升发音检测的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种发音检测方法,包括:获取受测对象朗读目标文本所采集到的测试语音,并获取目标文本进行音素转换 ...
【技术保护点】
【技术特征摘要】
1.一种发音检测方法,其特征在于,包括:获取受测对象朗读目标文本所采集到的测试语音,并获取目标文本进行音素转换所得到的音素序列;其中,所述测试语音包含若干音频帧;提取所述音素序列中各个音素的音素特征,得到第一音素特征序列,并确定多种下采样率;对于各种所述下采样率,基于所述下采样率对所述若干音频帧进行编码,得到对应所述下采样率的韵律特征序列;对于各种所述下采样率分别对应的韵律特征序列,基于所述第一音素特征序列与所述韵律特征序列进行融合,得到第二音素特征序列;基于各个所述第二音素特征序列进行预测,得到所述测试语音的发音分值。2.根据权利要求1所述的方法,其特征在于,在所述基于各个所述第二音素特征序列进行预测,得到所述测试语音的发音分值之前,所述方法还包括:基于各个所述音频帧的声学特征进行编码,得到内容特征序列;基于所述第一音素特征序列与所述内容特征序列进行融合,得到第三音素特征序列;所述基于各个所述第二音素特征序列进行预测,得到所述测试语音的发音分值,包括:基于各个所述第二音素特征序列和所述第三音素特征序列进行预测,得到所述测试语音的发音分值。3.根据权利要求2所述的方法,其特征在于,所述基于各个所述第二音素特征序列和所述第三音素特征序列进行预测,得到所述测试语音的发音分值,包括:将各个所述第二音素特征序列和所述第三音素特征序列中属于相同音素的音素特征进行融合,得到对应所述音素的融合特征;基于所述音素的融合特征进行预测,得到所述音素的发音分值;基于各个所述音素的发音分值进行数值统计,得到所述测试语音的发音分值。4.根据权利要求2所述的方法,其特征在于,所述内容特征序列由声学编码器对所述声学特征进行编码得到,所述声学编码器的训练步骤包括:获取第一样本语音;其中,所述第一样本语音标注有样本音素序列,且所述样本语音包含若干第一样本音频帧;基于所述声学编码器对各个所述第一样本音频帧的声学特征进行编码,得到样本内容特征序列;基于所述样本内容特征序列进行预测,得到预测音素序列;基于所述样本音素序列与所述预测音素序列之间的差异,调整所述声学编码器的网络参数。5.根据权利要求1所述的方法,其特征在于,对应于不同所述下采样率的韵律特征序列分别由对应所述下采样率的韵律编码器对所述若干音频帧进行编码得到,所述韵律编码器基于第二样本语音采用对比预测编码的方式训练得到,所述第二样本语音包括若干第二样本音频帧。6.根据权利要求5所述的方法,其特征在于,所述韵律编码器在采用所述对比预测编码的方式进行训练过程中,正例编码特征的获取步骤包括:选择所述第二样本音频帧作为锚点样本音频帧;其中,所述锚点样本音频帧及其之前
的第二样本音频帧由所述韵律编码器中正向编码网络进...
【专利技术属性】
技术研发人员:韩凯,盛志超,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。