发音错误检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26175210 阅读:28 留言:0更新日期:2020-10-31 14:07
本申请提供一种发音错误检测方法、装置、电子设备及存储介质。该方法包括:根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否发音错误。本申请利用构建包含预设混淆音素的候选路径的WFST对齐网络与强制对齐还原出实际音素,减少解码搜索空间,从而加快发音检错的解码速度。

Pronunciation error detection method, device, electronic equipment and storage medium

【技术实现步骤摘要】
发音错误检测方法、装置、电子设备及存储介质
本申请涉及计算机辅助语言学习技术,尤其涉及一种发音错误检测方法、装置、电子设备及存储介质。
技术介绍
发音错误检测(MispronunciationDetection)技术是计算机辅助语言学习(ComputerAssistedLanguageLearning,简称:CALL)技术的一个细分方向,发音错误检测技术要求高效、准确地还原出学习者的实际发音情况,并给出音素级别的客观反馈和评价,以帮助学习者纠正发音错误。传统的基于音素循环网络的发音检错技术,是在无限制的音素循环网络中解码得到实际发音的音素序列,进而基于音素序列确定发音是否错误。专利技术人在使用该技术进行发音检错时,发现至少存在解码速度慢的问题。
技术实现思路
本申请提供一种发音错误检测方法、装置、电子设备及存储介质,以提升发音检错的解码速度。第一方面,本申请提供一种发音错误检测方法,该方法包括:根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列及边界信息,构建包含预设混淆音素的候选路径的加权有限状态转移器(WeightedFinite-StateTransducers,简称:WFST)对齐网络;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否发音错误。一种可能的实施方式中,上述根据第一音素序列及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络,可以包括:根据第一音素序列中非静音音素及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络。其中,预设混淆音素为非静音音素对应的预设混淆音素。一种可能的实施方式中,上述在WFST对齐网络中搜索待检测语音信号对应的第二音素序列,可以包括:基于待检测语音信号对应的声学分数和维特比算法,在WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第二音素序列。一种可能的实施方式中,上述根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,可以包括:根据发音文本,构建初始WFST对齐网络,其中,初始WFST对齐网络表示发音文本对应的音素的可能路径状态图;根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息。一种可能的实施方式中,上述初始WFST对齐网络包含词间可选静音音素路径。一种可能的实施方式中,上述根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息,可包括:根据待检测语音信号和预先训练好的声学模型,获得待检测语音信号对应的状态后验概率;根据待检测语音信号对应的状态后验概率,获得待检测语音信号对应的声学分数;基于待检测语音信号对应的声学分数和维特比算法,在初始WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第一音素序列及边界信息。一种可能的实施方式中,上述比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否发音错误,可以包括:若第二音素序列与第一音素序列的音素相同,则确定第一音素序列中音素发音正确;或者,若第二音素序列与第一音素序列的音素不同,则确定第一音素序列中该不同音素的发音错误。第二方面,本申请提供一种发音错误检测装置,包括:获取模块,用于根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;构建模块,用于根据第一音素序列及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络;搜索模块,用于在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较模块,用于比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否发音错误。一种可能的实施方式中,构建模块,具体用于:根据第一音素序列中非静音音素及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络。其中,预设混淆音素为非静音音素对应的预设混淆音素。一种可能的实施方式中,搜索模块,具体用于:基于待检测语音信号对应的声学分数和维特比算法,在WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第二音素序列。一种可能的实施方式中,获取模块包括:构建单元,用于根据发音文本,构建初始WFST对齐网络,其中,初始WFST对齐网络表示发音文本对应的音素的可能路径状态图;获取单元,用于根据待检测语音信号和初始WFST对齐网络,获取待检测语音信号对应的第一音素序列及边界信息。一种可能的实施方式中,上述初始WFST对齐网络包含词间可选静音音素路径。一种可能的实施方式中,获取单元,具体用于:根据待检测语音信号和预先训练好的声学模型,获得待检测语音信号对应的状态后验概率;根据待检测语音信号对应的状态后验概率,获得待检测语音信号对应的声学分数;基于待检测语音信号对应的声学分数和维特比算法,在初始WFST对齐网络中搜索最优路径,得到待检测语音信号对应的第一音素序列及边界信息。一种可能的实施方式中,比较模块,具体用于:若第二音素序列与第一音素序列的音素相同,则确定第一音素序列中音素发音正确;或者,若第二音素序列与第一音素序列的音素不同,则确定第一音素序列中该不同音素的发音错误。第三方面,本申请提供一种电子设备,包括:存储器,用于存储程序指令;处理器,用于调用并执行存储器中的程序指令,执行如第一方面中任一项所述的方法。第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有程序指令;程序指令被执行时,实现如第一方面中任一项所述的方法。本申请提供的发音错误检测方法、装置、电子设备及存储介质,该方法包括:根据发音文本和待检测语音信号,获取待检测语音信号对应的第一音素序列及边界信息,待检测语音信号是针对发音文本的语音信号;根据第一音素序列及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络;在WFST对齐网络中搜索待检测语音信号对应的第二音素序列;比较第一音素序列及第二音素序列的音素,确定第一音素序列中音素是否发音错误。由于利用构建包含预设混淆音素的候选路径的WFST对齐网络与强制对齐还原出实际音素,因此可减少解码搜索空间,从而加快发音检错的解码速度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a为本申请一实施例提供的应用场景示例图;图1b为本申请另一实施例提供的应用场景示例图;图2为本申请一实施例提供的发本文档来自技高网...

【技术保护点】
1.一种发音错误检测方法,其特征在于,包括:/n根据发音文本和待检测语音信号,获取所述待检测语音信号对应的第一音素序列及边界信息,所述待检测语音信号是针对所述发音文本的语音信号;/n根据所述第一音素序列及边界信息,构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络;/n在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列;/n比较所述第一音素序列及所述第二音素序列的音素,确定所述第一音素序列中音素是否发音错误。/n

【技术特征摘要】
1.一种发音错误检测方法,其特征在于,包括:
根据发音文本和待检测语音信号,获取所述待检测语音信号对应的第一音素序列及边界信息,所述待检测语音信号是针对所述发音文本的语音信号;
根据所述第一音素序列及边界信息,构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络;
在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列;
比较所述第一音素序列及所述第二音素序列的音素,确定所述第一音素序列中音素是否发音错误。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一音素序列及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络,包括:
根据所述第一音素序列中非静音音素及边界信息,构建包含预设混淆音素的候选路径的WFST对齐网络,所述预设混淆音素为所述非静音音素对应的预设混淆音素。


3.根据权利要求1所述的方法,其特征在于,在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列,包括:
基于所述待检测语音信号对应的声学分数和维特比算法,在所述WFST对齐网络中搜索最优路径,得到所述待检测语音信号对应的第二音素序列。


4.根据权利要求1所述的方法,其特征在于,所述根据发音文本和待检测语音信号,获取所述待检测语音信号对应的第一音素序列及边界信息,包括:
根据所述发音文本,构建初始WFST对齐网络,其中,所述初始WFST对齐网络表示所述发音文本对应的音素的可能路径状态图;
根据所述待检测语音信号和所述初始WFST对齐网络,获取所述待检测语音信号对应的第一音素序列及边界信息。


5.根据权利要求4所述的方法,其特征在于,所述初始WFST对齐网络包含词间可选静音音素路径。


6.根据权利要求4所述的方法,其特征在于,所述根据所述待检测语音信号和所述初始WFST对齐...

【专利技术属性】
技术研发人员:叶珑雷延强梁伟文
申请(专利权)人:广州视琨电子科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1