一种自动检测语言学习者朗读错误的方法技术

技术编号:4330929 阅读:330 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于自动检测语言学习者朗读错误的方法,包括:根据朗读语料训练多发音模型;根据参考答案、发音字典、多发音模型构建精简搜索空间;根据参考答案及语言学知识构建朗读语言模型;对输入语音预处理分帧,提取语音特征;采用Viterbi算法在精简搜索空间中搜索一条声学模型得分、语言模型得分及发音得分的累积分数最高的一条发音路径作为识别发音序列;将识别的发音序列与参考答案的发音序列通过动态规划匹配算法对齐,进而得到朗读的多读、漏读、错读结果。本发明专利技术中采用隐马尔可夫模型作为声学模型,不需要模板语音,可大大提高使用的便利性,其性能和运行速度也较好。

【技术实现步骤摘要】

本专利技术属于计算机辅助语言教学领域,具体的说,本专利技术涉及一种自动检测语 言学习者朗读语音中的朗读错误的方法。
技术介绍
在计算机辅助语言教学中,能够自动检测用户朗读语音中的错误并及时给予反 馈是至关重要的一个部分。在语言朗读学习中,对词或字的多读、漏读、错读是学 习者最容易出现的朗读错误。以往的检测方法通常是将用户语音与标准语音进行模 板匹配,进而检测出朗读错误的位置。标准语音通常是事先录制好的老师的语音。 这种方法最大的缺点是需要标准语音作为模板,学习材料不能随意更换,在实际应 用中,非常的不方便。基于隐含马尔可夫模型的自动语音识别技术的发展给计算机辅助语言教学提供 了一种新的发展道路。自动语音识别技术通过对大量的语音数据进行统计分析,构 建出符合语音特征的声学模型;识别过程中,语音识别解码单元根据声学模型在一 个有限的搜索空间中找到一条与实际语音最为匹配的一条路径,即语音的识别结果。 一般意义上的语音识别技术解决的是将语音转化成文字的问题,其最终的输出结果 是一个文字序列。在这里,语音的内容是完全未知的,因此它一般采用很大的词表 和通用的语言模型来包含尽可能多的候选项。对于朗读错误检测的任务,其要解决 的是检测用户语音与参考答案是否匹配的问题,其最终的输出结果是一个朗读错误 的位置和类型信息。这时,用户朗读的内容是已知的,因此,通常的语音识别方法 在这里并不适合。基于此,本专利技术提供了。
技术实现思路
本专利技术的目的在于提供。该方法以基 于隐马尔可夫模型的自动语音识别技术为基础,提出了一种用于自动检测语言学习 者朗读语音中的多读、漏读和错读的新方法。该方法不需要老师的标准语音作为模 板,大大提高实际应用的便利性。4为实现上述专利技术目的,本专利技术提供的检测朗读错误的方法包含如下几个步骤-1) 前端处理对输入语音进行预处理,提取MFCC特征。2) 构建精简搜索空间根据参考答案(即用户所要朗读的内容)、发音字典、 多发音模型和声学模型构建精简的搜索空间,。3) 构建朗读语言模型根据参考答案构建用户的朗读语言模型,该语言模型描 述了用户在朗读该参考语句的时候可能朗读的上下文内容及其概率信息。4) 搜索在搜索空间中,根据声学模型、朗读语言模型和多发音模型搜索得到 与输入的特征矢量流最匹配的一条路径,作为用户的实际朗读结果内容,即 识别结果序列。在搜索过程中,每个词W的似然概率由以下公式计算其中,o是当前输入的特征矢量,p(wo是当前词w的语言模型概率, 尸(VIM/)是当前词W的某个发音V的概率,尸(oii/)是特征矢量o在发音v上的声学模型概率。5) 对齐将参考答案与识别结果进行对齐,得到用户多读、漏读、错读的检测结果。上述技术方案中,所述步骤2)进一步包括如下步骤a) 将用户所要朗读的内容作为参考答案,并对参考答案进行分词;b) 对每个词,根据其发音字典和多发音模型,找到其所有可能的发音,构建成 词网络,并加入一个filler发音;c) 根据发音字典,将上述词网络中的每个词展开成音素序列,构成一个音素网络;d) 将每个音素再转换成对应的隐马尔可夫模型,每个马尔可夫模型由若干个状 态构成;e) 经过前向和后向的合并,最终形成精简的状态网络。其中,上述步骤b)中的多发音模型描述每个词可能的发音以及相应的概率 P(V|W0,是通过收集大量的朗读语料,由专家对这些数据进行实际发音的标注,将 标注与参考答案通过动态规划算法对齐,通过如下公式计算每个字的每个发音的概、1 J iV同其中,7v(wo是语料中出现的词w的数目,iv(w^,vo是其发音被标注为v的w的 数目。上述技术方案中,所述步骤3)所提到的语言模型是一个二元因子的语言模型,其描述了当前的词Wl跳转到词W2的概率,Wl和W2都是参考答案中的词或者 filler。这个语言模型规定,当前词跳转到下一个正确的词的概率为P,跳转到参考答 案中的其他的词或者filler的概率为(P-1)/W, iV为参考答案中的总的词数。上述技术方案中,所述步骤4)所采用到的搜索算法为Viterbi搜索算法。上述技术方案中,所述步骤5)所提到对齐方法采用动态规划对齐的方法。本专利技术的自动检测语言学习者朗读错误的方法的有益效果在于,其与现有的采 用老师的标准语音与学习者的朗读语音进行模板匹配来检测朗读错误的方法相比, 其采用隐马尔可夫模型作为声学模型,不再需要模板语音,因此,学习材料可随意 更换,不再需要对每一句学习材料录制标准模板语音。而且,基于统计的隐马尔可 夫声学模型采用大规模的语音语料训练而成,最大程度上消除了对单个模板语音的 依赖,其鲁棒性要远远高于模板匹配的方法,可大大提高朗读检测的客观性和准确 性。附图说明图1是本专利技术的自动检测语言学习者朗读错误方法的流程图。 图2是本专利技术的方法中所使用多发音模型的一个示例。 图3是本专利技术的方法中词网络的示意图。图4是本专利技术的方法中一个词节点转化成状态节点序列的示意图。 图5是本专利技术的方法中所使用的精简搜索空间(状态网络)的示意图。 图6是本专利技术的方法中所使用的朗读语言模型的示意图。具体实施方式下面结合附图及具体实施例对本专利技术做进一步描述 实施例图1是本专利技术的检测朗读错误的方法的流程图。如图1所示,本专利技术提供的检测朗读错误的方法包括如下步骤1) 前端处理对输入语音进行预处理,进行特征提取;在一个实施例中,将输入数据进行16K采样率数字化(此处也可采用其他的采 样率,比如,8K, 32K等等),并进行预加重、分帧、加窗处理,对每一帧提取MFCC (mel-frequency cepstral coefficient)特征矢量及两阶差分矢量。2) 构建精简搜索空间将用户所要朗读的内容作为参考答案,并根据参考答案、 发音字典、多发音模型和声学模型构建精简的搜索空间;例如,具体包括如下步骤a) 将用户所要朗读的内容作为参考答案,并对参考答案进行分词。b) 对每个词,根据其发音字典和多发音模型,找到其所有可能的发音,构建成 如图3所示的词网络,并加入一个filler发音。c) 根据发音字典,将图3的词网络中的每个词展开成音素序列,构成一个音素 网络。d) 将每个音素再转换成对应的隐马尔可夫模型(HMM),每个马尔可夫模型由若 干个状态构成。这里,将词转化成状态的过程如图4所示。e) 经过前向和后向的合并,如图5所示,最终形成一个精简的高效的状态网络。上述步骤b)中所提到的多发音模型描述了每个词可能的发音以及相应的概率 P(V|W0,是根据事先收集的朗读语料统计得到,反映了某一地区或某一群体经常发 生的发音错误的分布情况。其简单示例如图6所示。每个词有多个发音,每个发音 有相应的概率。比如长有两个发音chang2和zhang3,每个发音的概率分 别为0.59和0.41。多发音模型是事先训练好的,其训练方法为收集大量的朗读语 料,由专家对这些数据进行实际发音的标注,将标注与参考答案通过动态规划算法 对齐,通过如下公式计算每个字的每个发音的概率iV同其中,iv(w)是语料中出现的词w的数目,7v(w^,vo是其发音被标注为v的w的数目。上述步骤b)中所提到的词网络如图3所示,其每一条边都代表了参考答案中的 某个词的某个发音。它是一个可循本文档来自技高网...

【技术保护点】
一种自动检测语言学习者朗读错误的方法,其特征在于,包含如下步骤: 1)前端处理:对输入语音进行预处理,进行特征提取,所提取特征为MFCC特征矢量; 2)构建精简搜索空间:将用户所要朗读的内容作为参考答案,并根据参考答案、发音字典 、多发音模型和声学模型构建精简的搜索空间; 3)构建朗读语言模型:根据参考答案构建用户的朗读语言模型,该语言模型描述用户在朗读该参考语句的时候可能朗读的上下文内容及其概率信息; 4)搜索:在搜索空间中,根据声学模型、朗读语言模型 和多发音模型搜索得到与输入的特征矢量流最匹配的一条路径,作为用户的实际朗读结果内容,做成识别结果序列; 5)对齐:将所述参考答案与识别结果进行对齐,得到用户多读、漏读、错读的检测结果。

【技术特征摘要】
1、一种自动检测语言学习者朗读错误的方法,其特征在于,包含如下步骤1)前端处理对输入语音进行预处理,进行特征提取,所提取特征为MFCC特征矢量;2)构建精简搜索空间将用户所要朗读的内容作为参考答案,并根据参考答案、发音字典、多发音模型和声学模型构建精简的搜索空间;3)构建朗读语言模型根据参考答案构建用户的朗读语言模型,该语言模型描述用户在朗读该参考语句的时候可能朗读的上下文内容及其概率信息;4)搜索在搜索空间中,根据声学模型、朗读语言模型和多发音模型搜索得到与输入的特征矢量流最匹配的一条路径,作为用户的实际朗读结果内容,做成识别结果序列;5)对齐将所述参考答案与识别结果进行对齐,得到用户多读、漏读、错读的检测结果。2、 如权利要求l所述的自动检测语言学习者朗读错误的方法,其特征在于,所述步骤l)中对输入语音的预处理包括对输入语音数字化、预加重高频提升、分帧及加窗处理,所述特征提取包括提取每一帧语音的MFCC特征矢量及两阶差分矢量。3、 如权利要求l所述的自动检测语言学习者朗读错误的方法,其特征在于,所述步骤2)进一步包括如下步骤a) 将用户所要朗读的内容作为参考答案,并对参考答案进行分词;b) 对每个词,根据其发音字典和多发音模型,找到其所有可能的发音,构建成词网络,并加入一个filler发音;c) 根据发音字典,将上述词网络中的每个词展开成音素序列,构成一个音素网络;d) 将每个音素再转换成对应的隐马尔可夫模型,每个马尔可夫模型由若干个状...

【专利技术属性】
技术研发人员:颜永红董滨刘常亮
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利