The invention provides a pronunciation error detection method, device, storage medium and device, the method comprises: a key frame position using phoneme connected sequential CTC method to detect the known correct classification of speech, as a landmark of the landmark acoustic landmark; treat the speech phoneme detection in pronunciation error detection based on. The invention uses the CTC method of key frame detection as acoustic beacons, without prior annotation of acoustic landmarks.
【技术实现步骤摘要】
发音偏误检测方法、装置、存储介质及设备
本专利技术涉及计算机辅助的语音相关
,尤其涉及一种发音偏误检测方法、装置、存储介质及设备。
技术介绍
发音偏误检测作为计算机辅助发音训练系统中一项重要技术,能够为学习者提升口语能力提供有效的途径。过去几十年中,已经涌现大量基于音段层级的发音偏误检测方法。其中一条路线是基于自动语音识别技术,采用统计语音识别框架进行发音偏误检测。按反馈形式,进一步可以分为两种类型。一种是基于置信分数的方法,例如,对数似然比(“Automaticdetectionofphone-levelmispronunciationforlanguagelearning”,SpeechCommunication,vol.30,no.2-3,pp.95-108,2000)来测量母语和非母语的声学音素模型的相似程度,以及其变体发音良好度(“Phone-levelpronunciationscoringofspecificphonesegmentsforlanguageinstruction”,Speechcommunication,vol.30,no.2,pp.95-108,2000)。然而,当学习者面对一个较低的分数时,不知道如何纠正。另一种是基于规则的方法,即利用发音扩展识别网络将正确发音及其偏误类型加入扩展识别词典中。为了搜集偏误类型,采用两种方法:一种是采用专家知识制定发音规则,另一种是机器学习的方法,即从正确发音和偏误发音的标注中自动学习声学语音规则来生成声学音系模型("Mispronunciationdetectionanddiagno ...
【技术保护点】
一种发音偏误检测方法,其特征在于,包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。
【技术特征摘要】
1.一种发音偏误检测方法,其特征在于,包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。2.如权利要求1所述的发音偏误检测方法,其特征在于,利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark,包括:利用CTC准则训练RNN声学模型;利用训练后的RNN声学模型解码已知正确语音中处理单元的语音,得到处理单元的语音中所述音素在各时间帧上的后验概率的序列;利用设定窗长、设定尖峰函数及序列中各后验概率,计算得到各时间帧对应的尖峰函数值;计算所有大于零的尖峰函数值的均值和方差;利用均值和方差得到切比雪夫不等式,并获取满足切比雪夫不等式的尖峰函数值;在设定窗长范围内获取最大尖峰函数值;利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,作为landmark。3.如权利要求2所述的发音偏误检测方法,其特征在于,利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,包括:判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素;若存在,则将所述尖峰位置作为关键帧位置;若不存在,则剔除所述尖峰位置,并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值,并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。4.如权利要求2所述的发音偏误检测方法,其特征在于,利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,作为landmark,包括:通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比,确定所述音素的关键帧相对位置;对所述音素的所有关键帧相对位置求平均,得到所述音素的最终关键帧,作为landmark。5.如权利要求1所述的发音偏误检测方法,其特征在于,基于所述landmark对待检测语音中所述音素进行发音偏误检测,包括:基于所述landmark,提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征;利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器;利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。6.如权利要求2至4任一项所述的发音偏误检测方法,其特征在于,所述设定尖峰函数为:其中,Si(k,i,xi,T)表示尖峰函数值,T表示处理单元的语音中声韵母在各时间帧上的后验概率的序列,k表示窗长,xi表示序列T中第i个时间帧的后验概率的值,i为大于或等于零的整数。7.一种发音偏误检测装置,其特征在于,包括:声学界标确定单元,用于:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;发音偏误检测单元,用于:基于所述landmark对待检测语音中所述音素进行发音偏误检测。8.如权利要求7...
【专利技术属性】
技术研发人员:解焱陆,牛传迎,张劲松,
申请(专利权)人:北京语言大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。