基于多特征和多系统融合的发音质量评估和错误检测方法技术方案

技术编号：4331594 阅读：183 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于多特征和多系统融合的发音质量评估和错误检测方法，利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测，包括以下步骤：语音识别及其自动切分对齐；提取用于发音质量评估和检错的特征参数；获取发音质量评估和检错模型训练数据；训练多个发音质量评估和检错系统；多个发音质量评估和检错系统的融合；以及对发音质量进行评估和对发音错误进行检测。利用本发明专利技术，有效地利用了多种语音特征，充分使用了多种评估和检测系统并进行信息融合，从而在最大程度上发挥了各种特征和系统的优势，保证了发音评估和检错的准确性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别和多系统融合技术在发音质量评估和发音错误检测上的应用
，具体涉及一种。
技术介绍
目前，国内英语口语考试仍采用人工评价形式，由于需要在短时间内对大量考生进行测试，其考务组织繁重，测试成本高，且效率低下，同时人工评判的主观性较强，很难保证考试的客观公正性。利用计算机技术对发音质量和发音错误进行自动评估和检测可以有效弥补人工评价手段的不足，并可以为语言辅助教学提供巨大帮助。现有的发音质量评估和错误检测方法普遍依赖于语音识别的后验概率，并且使用单一的特征或方法进行评检。模式识别和机器学习领域的大量理论和实践都表明，单一的特征和方法很难进一步提高系统性能，而使用多种特征并对多个系统进行信息融合可以充分发挥不同特征和方法的优势，取得单一特征和系统难以达到的效果。
技术实现思路
( — )要解决的技术问题有鉴于此，针对现有技术使用单一特征和方法进行发音质量评估和错误检测的不足，本专利技术的主要目的在于提供一种基于多特征和多系统融合的发音质量评估和错误检测方法，以有效利用多种语音特征，充分使用多种评估和检测系统并进行信息融合，从而在最大程度上发挥各种特征和系统的优势，保证发音评估和检错的准确性和可靠性。 ( 二 )技术方案为达到上述目的，本专利技术采用的技术方案如下 —种，该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测，包括以下步骤语音识别及其自动切分对齐；提取用于发音质量评估和检错的特征参数；获取发音质量评估和检错模型训练数据；训练多个发音质量评估和检...

【技术保护点】
一种基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测，包括以下步骤：语音识别及其自动切分对齐；提取用于发音质量评估和检错的特征参数；获取发音质量评估和检错模型训练数据；训练多个发音质量评估和检错系统；多个发音质量评估和检错系统的融合；以及对发音质量进行评估和对发音错误进行检测。

【技术特征摘要】
一种基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测，包括以下步骤语音识别及其自动切分对齐；提取用于发音质量评估和检错的特征参数；获取发音质量评估和检错模型训练数据；训练多个发音质量评估和检错系统；多个发音质量评估和检错系统的融合；以及对发音质量进行评估和对发音错误进行检测。2. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述语音识别及其自动切分对齐的步骤，具体包括收集发音语料，并对收集的发音语料进行词和音素级的人工标注；利用收集的发音语料训练语音识别和切分对齐需要的发音模型；在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上，使用语音识别和自动切分引擎，对输入语音进行识别并输出词级和音素级的对齐信息。3. 根据权利要求2所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典，所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。4. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述提取用于发音质量评估和检错的特征参数的步骤，具体包括提取语音帧的感知加权线性预测参数PLP、基音频率Pitch和共振峰Formant特征，并将音素边界内所有帧的PLP、 Pitch和Formant特征作为高斯混合模型G匪评检系统的特征；将语音帧的PLP、Pitch和Formant特征转换为广义线性判别序列GLDS特征，并将音素边界内所有帧的GLDS特征作为支持向量机SVM评检系统的特征；提取语音帧的时域模式特征TRAP，并将词汇边界内所有帧的TRAP特征作为多层感知器MLP评检系统的特征。5. 根据权利要求4所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述提取语音帧的PLP、 Pitch和Formant特征之后，进一步包括对提取的Pitch和Formant特征进行规一化，Pitch即为F0， Formant取F1、F2和F3，同时提供F0、F1、F2和F3的一阶和二阶差分参数。6. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述获取发音质量评估和检错模型训练数据的步骤，具体包括利用收集的标准发音语料及其人工标注，通过语音识别和切分对齐分别得到各音素的语音样本，以此作为训练各音素G匪模型的数据；利用收集的标准发音语料及其人工标注，通过语音识别和切分对齐分别得到各音素的语音样本，将当前音素的样本作为正样本，其他音素的样本作为当前音素的负样本，以各音素对应的正负样本作为训练各音素SVM模型的数据；利用收集的标准发音语料及其人工标注，通过语音识别和切分对齐得到语音样本和标注结果的对应关系，以此作为训练MLP模型的数据。7. 根据权利要求6所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述将当前音素的样本作为正样本，其他音素的样本作为当前音素的负样本，具体包括对于英文，元音和辅音分开，元音的其他音素只针对元音，辅音的其他音素只针对辅对于中文，声母和韵母分开，声母的其他音素只针对声母，韵母的其他音素只针对韵母。8. 根据权利要求6所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述在训练各音素SVM模型时，所需要的负样本由发音错误样本构成，或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。9. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述训练多个发音质量评估和检错系统的步骤，具体包括训练GMM评检模型；训练SVM评检模型；以及训练MLP评检模型。10. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述训练G匪评检模型，具体包括针对英文，利用所有元辅音的训练样本训练得到自身独立的通用背景模型，然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型；针对中文，利用所有声韵母的训练样本训练得到自身独立的通用背景模型，然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型。11. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法，其特征在于，所述训练SVM评检模型，具体包括SVM训练的正负样本比例保持在1 : l左右，使用多项式映射、最小均方误差准则算法和广义线性判别序列核...

【专利技术属性】
技术研发人员：徐波，李宏言，梁家恩，高鹏，王士进，李鹏，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人