发音偏误检测方法、装置、存储介质及设备制造方法及图纸

技术编号:17100512 阅读:23 留言:0更新日期:2018-01-21 11:52
本发明专利技术提供了一种发音偏误检测方法、装置、存储介质及设备,该方法包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。本发明专利技术利用CTC方法检测关键帧作为声学界标,不需事先标注声学界标。

Pronunciation error detection method, device, storage medium and equipment

The invention provides a pronunciation error detection method, device, storage medium and device, the method comprises: a key frame position using phoneme connected sequential CTC method to detect the known correct classification of speech, as a landmark of the landmark acoustic landmark; treat the speech phoneme detection in pronunciation error detection based on. The invention uses the CTC method of key frame detection as acoustic beacons, without prior annotation of acoustic landmarks.

【技术实现步骤摘要】
发音偏误检测方法、装置、存储介质及设备
本专利技术涉及计算机辅助的语音相关
,尤其涉及一种发音偏误检测方法、装置、存储介质及设备。
技术介绍
发音偏误检测作为计算机辅助发音训练系统中一项重要技术,能够为学习者提升口语能力提供有效的途径。过去几十年中,已经涌现大量基于音段层级的发音偏误检测方法。其中一条路线是基于自动语音识别技术,采用统计语音识别框架进行发音偏误检测。按反馈形式,进一步可以分为两种类型。一种是基于置信分数的方法,例如,对数似然比(“Automaticdetectionofphone-levelmispronunciationforlanguagelearning”,SpeechCommunication,vol.30,no.2-3,pp.95-108,2000)来测量母语和非母语的声学音素模型的相似程度,以及其变体发音良好度(“Phone-levelpronunciationscoringofspecificphonesegmentsforlanguageinstruction”,Speechcommunication,vol.30,no.2,pp.95-108,2000)。然而,当学习者面对一个较低的分数时,不知道如何纠正。另一种是基于规则的方法,即利用发音扩展识别网络将正确发音及其偏误类型加入扩展识别词典中。为了搜集偏误类型,采用两种方法:一种是采用专家知识制定发音规则,另一种是机器学习的方法,即从正确发音和偏误发音的标注中自动学习声学语音规则来生成声学音系模型("Mispronunciationdetectionanddiagnosisinl2englishspeechusingmultidistributiondeepneuralnetworks,"IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2017)。或者从语料库中统计偏误发音规则和相应频次,再用先验概率,扩展发音词典(“ImprovementofsegmentalmispronunciationdetectionwithpriorknowledgeextractedfromlargeL2speechcorpus,”inInterspeech2011,pp.1593-1596)。与基于置信分数的方法相比,基于规则的方法可以为学习者提供更多的反馈信息。这种基于自动语音识别框架的方法优点是发音偏误易于预测。然而其缺点是,一方面,从参数区分性的角度来说,此方法在每一帧语音中都提取同一种频谱参数(例如梅尔倒谱系数),其区分性还有待进一步研究,并且其潜在假设信息在语音中是均匀分布的;另一方面,从模型角度来说,ASR系统大多采用隐马尔可夫(HiddenMarkovModel,HMM)模型来建模音素的时间信息。然而HMM还不能有力的区分频谱上形似而时长不同的语音(“Comparingdifferentapproachesforautomaticpronunciationerrordetection,”SpeechCommunication,vol.51,no.10,pp.845-852,2009)。并且此方法依赖语言背景和训练数据规模,对特定的偏误类型其检测精度还需进一步提升。对于二语学习者来说,学习外语的主要挑战来自于实现特定的音位对立。这种对立存在于母语中,但可能不存在于二语中。由于受母语负迁移等作用的影响,其发音位置常常会倾向于母语中相似音的发音位置。外语学习者的偏误发音不能仅仅被分为插入、删除、替换错误。WenCao等人根据发音位置和发音方法定义了发音偏误趋势,描述了二语者发音介于正确发音和偏误发音中间状态的一种似是而非的情况(“DevelopingaChineseL2speechdatabaseofJapaneselearnerswithnarrow-phoneticlabelsforcomputerassistedpronunciationtraining”,ininterspeech2010,pp.1922-1925)。这种情况常出现在高级学习者中。为了识别这种细微的变化。另一条路线是将发音偏误检测当做二分类任务,来检测错误发音及其偏误趋势。然而针对每种偏误类型寻找具有区分性的特征常常是非常困难的。Stevens的声学landmark(声学界标)理论,从人类语音产出的机理出发,定义了landmark作为描述发音和声学之间量子非线性关系的瞬时区域(Acousticphonetics.MITpress,2000,vol.30;“Thequantalnatureofspeech:Evidencefromarticulatory-acousticdata,”1972,pp.51-66;“Onthequantalnatureofspeech,”Journalofphonetics,1989,vol.17,no.2pp.3-45;“Quantaltheory,enhancementandoverlap,”JournalofPhonetics,2010,vol.38,no.1,pp.10-19)。在这一区域中具有显著的信号突变,通常意味着感知上的焦点和发音的目标,具有丰富的语音信息。大量感知实验表明,听者集中于landmark有助于选择潜在的区别特征(“Evidencefortheroleofacousticboundariesintheperceptionofspeechsounds,”inPhoneticLinguistics:EssaysinHonorofPeterLadefoged,editedbyV.Fromkin(Academic,NewYork),pp.243-255)。从landmark处提取区别特征在发音偏误检测中取得了良好效果。而确定能区分语音类别的landmark位置是非常困难的。它通常需要研究发音机理和大量人工标注,因此效率不高。针对以上问题,国内外学者提出了多种改进方法。大致可以分为三类:第一类是从信号检测的角度出发检测语音信号不同层次和维度的特征参数的变化得到landmark。常用的参数有短时能量、过零率、共振峰等。SharlenA.Liu提出利用语音的分频能量特征检测与辅音相关的三种landmark的方法。该方法根据音素发音特点将语音频谱分为六个频带,并将每个频带能量的一阶差分曲线的峰谷值作为landmark候选,通过相应的判断准则得到语音信号的landmark序列(“Landmarkdetectionfordistinctivefeature‐basedspeechrecognition,”TheJournaloftheAcousticalSocietyofAmerica,1996,vol.100,no.5,pp.3417-3430)。A.R.Janyan和P.C.Pandey认为Liu建立的分频处理方法依赖于话者之间的差异,因此利用高斯混合模型(GaussianMixtureModel,GMM)建模平滑的频谱包络,并利用ROR(rateofrise)函数提取GMM参数检测塞音的landmark(“Detectionof本文档来自技高网...
发音偏误检测方法、装置、存储介质及设备

【技术保护点】
一种发音偏误检测方法,其特征在于,包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。

【技术特征摘要】
1.一种发音偏误检测方法,其特征在于,包括:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;基于所述landmark对待检测语音中所述音素进行发音偏误检测。2.如权利要求1所述的发音偏误检测方法,其特征在于,利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark,包括:利用CTC准则训练RNN声学模型;利用训练后的RNN声学模型解码已知正确语音中处理单元的语音,得到处理单元的语音中所述音素在各时间帧上的后验概率的序列;利用设定窗长、设定尖峰函数及序列中各后验概率,计算得到各时间帧对应的尖峰函数值;计算所有大于零的尖峰函数值的均值和方差;利用均值和方差得到切比雪夫不等式,并获取满足切比雪夫不等式的尖峰函数值;在设定窗长范围内获取最大尖峰函数值;利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,作为landmark。3.如权利要求2所述的发音偏误检测方法,其特征在于,利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,包括:判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素;若存在,则将所述尖峰位置作为关键帧位置;若不存在,则剔除所述尖峰位置,并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值,并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。4.如权利要求2所述的发音偏误检测方法,其特征在于,利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置,作为landmark,包括:通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比,确定所述音素的关键帧相对位置;对所述音素的所有关键帧相对位置求平均,得到所述音素的最终关键帧,作为landmark。5.如权利要求1所述的发音偏误检测方法,其特征在于,基于所述landmark对待检测语音中所述音素进行发音偏误检测,包括:基于所述landmark,提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征;利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器;利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。6.如权利要求2至4任一项所述的发音偏误检测方法,其特征在于,所述设定尖峰函数为:其中,Si(k,i,xi,T)表示尖峰函数值,T表示处理单元的语音中声韵母在各时间帧上的后验概率的序列,k表示窗长,xi表示序列T中第i个时间帧的后验概率的值,i为大于或等于零的整数。7.一种发音偏误检测装置,其特征在于,包括:声学界标确定单元,用于:利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置,作为声学界标landmark;发音偏误检测单元,用于:基于所述landmark对待检测语音中所述音素进行发音偏误检测。8.如权利要求7...

【专利技术属性】
技术研发人员:解焱陆牛传迎张劲松
申请(专利权)人:北京语言大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1