发音偏误检测方法、装置、存储介质及设备制造方法及图纸

技术编号:17100512 阅读:29 留言:0更新日期:2018-01-21 11:52
本发明专利技术提供了一种发音偏误检测方法、装置、存储介质及设备,该方法包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。本发明专利技术利用CTC方法检测关键帧作为声学界标,不需事先标注声学界标。

Pronunciation error detection method, device, storage medium and equipment

The invention provides a pronunciation error detection method, device, storage medium and device, the method comprises: a key frame position using phoneme connected sequential CTC method to detect the known correct classification of speech, as a landmark of the landmark acoustic landmark; treat the speech phoneme detection in pronunciation error detection based on. The invention uses the CTC method of key frame detection as acoustic beacons, without prior annotation of acoustic landmarks.

【技术实现步骤摘要】
发音偏误检测方法、装置、存储介质及设备
本专利技术涉及计算机辅助的语音相关
,尤其涉及一种发音偏误检测方法、装置、存储介质及设备。
技术介绍
发音偏误检测作为计算机辅助发音训练系统中一项重要技术,能够为学习者提升口语能力提供有效的途径。过去几十年中,已经涌现大量基于音段层级的发音偏误检测方法。其中一条路线是基于自动语音识别技术,采用统计语音识别框架进行发音偏误检测。按反馈形式,进一步可以分为两种类型。一种是基于置信分数的方法,例如,对数似然比(“Automaticdetectionofphone-levelmispronunciationforlanguagelearning”,SpeechCommunication,vol.30,no.2-3,pp.95-108,2000)来测量母语和非母语的声学音素模型的相似程度,以及其变体发音良好度(“Phone-levelpronunciationscoringofspecificphonesegmentsforlanguageinstruction”,Speechcommunication,vol.30,no.2,pp.95-108,本文档来自技高网...
发音偏误检测方法、装置、存储介质及设备

【技术保护点】
一种发音偏误检测方法,其特征在于,包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。

【技术特征摘要】
1.一种发音偏误检测方法,其特征在于,包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。2.如权利要求1所述的发音偏误检测方法,其特征在于,利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark,包括:利用CTC准则训练RNN声学模型;利用训练后的RNN声学模型解码已知正确语音中处理单元的语音,得到处理单元的语音中所述音素在各时间帧上的后验概率的序列;利用设定窗长、设定尖峰函数及序列中各后验概率,计算得到各时间帧对应的尖峰函数值;计算所有大于零的尖峰函数值的均值和方差;利用均值和方差得到切比雪夫不等式,并获取满足切比雪夫不等式的尖峰函数值;在设定窗长范围内获取最大尖峰函数值;利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,作为landmark。3.如权利要求2所述的发音偏误检测方法,其特征在于,利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,包括:判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素;若存在,则将所述尖峰位置作为关键帧位置;若不存在,则剔除所述尖峰位置,并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值,并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。4.如权利要求2所述的发音偏误检测方法,其特征在于,利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,作为landmark,包括:通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比,确定所述音素的关键帧相对位置;对所述音素的所有关键帧相对位置求平均,得到所述音素的最终关键帧,作为landmark。5.如权利要求1所述的发音偏误检测方法,其特征在于,基于所述landmark对待检测语音中所述音素进行发音偏误检测,包括:基于所述landmark,提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征;利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器;利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。6.如权利要求2至4任一项所述的发音偏误检测方法,其特征在于,所述设定尖峰函数为:其中,Si(k,i,xi,T)表示尖峰函数值,T表示处理单元的语音中声韵母在各时间帧上的后验概率的序列,k表示窗长,xi表示序列T中第i个时间帧的后验概率的值,i为大于或等于零的整数。7.一种发音偏误检测装置,其特征在于,包括:声学界标确定单元,用于:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;发音偏误检测单元,用于:基于所述landmark对待检测语音中所述音素进行发音偏误检测。8.如权利要求7...

【专利技术属性】
技术研发人员:解焱陆牛传迎张劲松
申请(专利权)人:北京语言大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1