发音错误检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26175210 阅读：37 留言：0更新日期：2020-10-31 14:07

本申请提供一种发音错误检测方法、装置、电子设备及存储介质。该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络；在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。本申请利用构建包含预设混淆音素的候选路径的WFST对齐网络与强制对齐还原出实际音素，减少解码搜索空间，从而加快发音检错的解码速度。

Pronunciation error detection method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
发音错误检测方法、装置、电子设备及存储介质
本申请涉及计算机辅助语言学习技术，尤其涉及一种发音错误检测方法、装置、电子设备及存储介质。
技术介绍
发音错误检测(MispronunciationDetection)技术是计算机辅助语言学习(ComputerAssistedLanguageLearning，简称：CALL)技术的一个细分方向，发音错误检测技术要求高效、准确地还原出学习者的实际发音情况，并给出音素级别的客观反馈和评价，以帮助学习者纠正发音错误。传统的基于音素循环网络的发音检错技术，是在无限制的音素循环网络中解码得到实际发音的音素序列，进而基于音素序列确定发音是否错误。专利技术人在使用该技术进行发音检错时，发现至少存在解码速度慢的问题。
技术实现思路
本申请提供一种发音错误检测方法、装置、电子设备及存储介质，以提升发音检错的解码速度。第一方面，本申请提供一种发音错误检测方法，该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的加权有限状态转移器(WeightedFinite-StateTransducers，简称：WFST)对齐网络；在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。一种可能的实施方式中，上述根据第一音素序列及边界信息，构建包含预设混...

【技术保护点】
1.一种发音错误检测方法，其特征在于，包括：/n根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素序列及边界信息，所述待检测语音信号是针对所述发音文本的语音信号；/n根据所述第一音素序列及边界信息，构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络；/n在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列；/n比较所述第一音素序列及所述第二音素序列的音素，确定所述第一音素序列中音素是否发音错误。/n

【技术特征摘要】
1.一种发音错误检测方法，其特征在于，包括：
根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素序列及边界信息，所述待检测语音信号是针对所述发音文本的语音信号；
根据所述第一音素序列及边界信息，构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络；
在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列；
比较所述第一音素序列及所述第二音素序列的音素，确定所述第一音素序列中音素是否发音错误。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，包括：
根据所述第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，所述预设混淆音素为所述非静音音素对应的预设混淆音素。

3.根据权利要求1所述的方法，其特征在于，在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列，包括：
基于所述待检测语音信号对应的声学分数和维特比算法，在所述WFST对齐网络中搜索最优路径，得到所述待检测语音信号对应的第二音素序列。

4.根据权利要求1所述的方法，其特征在于，所述根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素序列及边界信息，包括：
根据所述发音文本，构建初始WFST对齐网络，其中，所述初始WFST对齐网络表示所述发音文本对应的音素的可能路径状态图；
根据所述待检测语音信号和所述初始WFST对齐网络，获取所述待检测语音信号对应的第一音素序列及边界信息。

5.根据权利要求4所述的方法，其特征在于，所述初始WFST对齐网络包含词间可选静音音素路径。

6.根据权利要求4所述的方法，其特征在于，所述根据所述待检测语音信号和所述初始WFST对齐...

【专利技术属性】
技术研发人员：叶珑，雷延强，梁伟文，
申请(专利权)人：广州视琨电子科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人