基于多特征和多系统融合的发音质量评估和错误检测方法技术方案

技术编号:4331594 阅读:183 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于多特征和多系统融合的发音质量评估和错误检测方法,利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测,包括以下步骤:语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错系统;多个发音质量评估和检错系统的融合;以及对发音质量进行评估和对发音错误进行检测。利用本发明专利技术,有效地利用了多种语音特征,充分使用了多种评估和检测系统并进行信息融合,从而在最大程度上发挥了各种特征和系统的优势,保证了发音评估和检错的准确性和可靠性。

【技术实现步骤摘要】

本专利技术涉及语音识别和多系统融合技术在发音质量评估和发音错误检测上的应用
,具体涉及一种。
技术介绍
目前,国内英语口语考试仍采用人工评价形式,由于需要在短时间内对大量考生 进行测试,其考务组织繁重,测试成本高,且效率低下,同时人工评判的主观性较强,很难保 证考试的客观公正性。利用计算机技术对发音质量和发音错误进行自动评估和检测可以有 效弥补人工评价手段的不足,并可以为语言辅助教学提供巨大帮助。 现有的发音质量评估和错误检测方法普遍依赖于语音识别的后验概率,并且使用 单一的特征或方法进行评检。模式识别和机器学习领域的大量理论和实践都表明,单一的 特征和方法很难进一步提高系统性能,而使用多种特征并对多个系统进行信息融合可以充 分发挥不同特征和方法的优势,取得单一特征和系统难以达到的效果。
技术实现思路
( — )要解决的技术问题 有鉴于此,针对现有技术使用单一特征和方法进行发音质量评估和错误检测的不 足,本专利技术的主要目的在于提供一种基于多特征和多系统融合的发音质量评估和错误检测 方法,以有效利用多种语音特征,充分使用多种评估和检测系统并进行信息融合,从而在最 大程度上发挥各种特征和系统的优势,保证发音评估和检错的准确性和可靠性。 ( 二 )技术方案 为达到上述目的,本专利技术采用的技术方案如下 —种,该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测,包括以下步骤 语音识别及其自动切分对齐; 提取用于发音质量评估和检错的特征参数; 获取发音质量评估和检错模型训练数据; 训练多个发音质量评估和检错系统; 多个发音质量评估和检错系统的融合;以及 对发音质量进行评估和对发音错误进行检测。 上述方案中,所述语音识别及其自动切分对齐的步骤,具体包括 收集发音语料,并对收集的发音语料进行词和音素级的人工标注; 利用收集的发音语料训练语音识别和切分对齐需要的发音模型; 在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。 上述方案中,所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的 发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语 言约束关系。 上述方案中,所述提取用于发音质量评估和检错的特征参数的步骤,具体包括 提取语音帧的PLP、 Pitch和Formant特征,并将音素边界内所有帧的PLP、 Pitch 和Formant特征作为G匪评检系统的特征; 将语音帧的PLP、Pitch和Formant特征转换为GLDS特征,并将音素边界内所有帧 的GLDS特征作为SVM评检系统的特征; 提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为MLP评检系统 的特征。 上述方案中,所述提取语音帧的PLP、 Pitch和Formant特征之后,进一步包括对 提取的Pitch (即FO)和Formant特征进行规一化,Formant取Fl、 F2和F3,同时提供F0、 Fl、 F2和F3的一阶和二阶差分参数。 上述方案中,所述获取发音质量评估和检错模型训练数据的步骤,具体包括 利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音 素的语音样本,以此作为训练各音素G匪模型的数据; 利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音 素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以 各音素对应的正负样本作为训练各音素SVM模型的数据; 利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本 和标注结果的对应关系,以此作为训练MLP模型的数据。 上述方案中,所述将当前音素的样本作为正样本,其他音素的样本作为当前音素 的负样本,具体包括 对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对 辅音; 对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对 韵母。 上述方案中,所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。 上述方案中,所述训练多个发音质量评估和检错系统的步骤,具体包括 训练G匪评检模型; 训练SVM评检模型;以及 训练MLP评检模型。 上述方案中,所述训练G匪评检模型,具体包括 针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型; 针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型。 上述方案中,所述训练SVM评检模型,具体包括SVM训练的正负样本比例保持在i : l左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练svM评检模型。 上述方案中,在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用 SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最 终SVM模型;当某个音素的正样本较少时,通过邻近类别音素合并的手段降低数据量不足 对SVM模型精度的影响。 上述方案中,所述训练MLP评检模型,具体包括利用语音样本和对应的标注结 果,使用MLP训练工具训练得到统一的MLP模型。 上述方案中,所述多个发音质量评估和检错系统的融合的步骤,具体包括 1)、利用G匪模型计算当前音素的GOP得分,记为score,; 2)、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为score,; 3)、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为 scoremlp ; 4)、将scoregmm、 scoresvm和scoremlp变换到统一的得分域; 5)、当前音素的最终置信度得分为score = wg_ 'score^+Ws^ 'scoresvm+w一 'scoremlp,其中wgmm、wsvm和wmlp为G匪、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。 上述方案中,步骤1)中所述计算当前音素的GOP得分,是将当前音素在自身G匪模型上的对数概率减去在所有G匪模型上的对数概率之和。 上述方案中,所述在计算当前音素的GOP得分的过程中,具体包括 对于英文,元音的所有G匪模型只计算元音,辅音的所有G匪模型只计算辅音; 对于中文,声母的所有G匪模型只计算声母,韵母的所有G匪模型只计算韵母。 上述方案中,步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模型进行内积运算获得。 上述方案中,步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。 上述方案中,所述对发音质量进行评估和对发音错误进行检测的步骤,具体包括 1)、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量 评分,并作为不同层次上发音质量评估的指标; 2)、利用本文档来自技高网...

【技术保护点】
一种基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测,包括以下步骤:语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错系统;多个发音质量评估和检错系统的融合;以及对发音质量进行评估和对发音错误进行检测。

【技术特征摘要】
一种基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,该方法利用多种特征参数描述发音质量并使用多种评检系统相互融合的方法对发音质量进行评估和错误检测,包括以下步骤语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错系统;多个发音质量评估和检错系统的融合;以及对发音质量进行评估和对发音错误进行检测。2. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述语音识别及其自动切分对齐的步骤,具体包括收集发音语料,并对收集的发音语料进行词和音素级的人工标注;利用收集的发音语料训练语音识别和切分对齐需要的发音模型;在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。3. 根据权利要求2所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。4. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述提取用于发音质量评估和检错的特征参数的步骤,具体包括提取语音帧的感知加权线性预测参数PLP、基音频率Pitch和共振峰Formant特征,并将音素边界内所有帧的PLP、 Pitch和Formant特征作为高斯混合模型G匪评检系统的特征;将语音帧的PLP、Pitch和Formant特征转换为广义线性判别序列GLDS特征,并将音素边界内所有帧的GLDS特征作为支持向量机SVM评检系统的特征;提取语音帧的时域模式特征TRAP,并将词汇边界内所有帧的TRAP特征作为多层感知器MLP评检系统的特征。5. 根据权利要求4所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述提取语音帧的PLP、 Pitch和Formant特征之后,进一步包括对提取的Pitch和Formant特征进行规一化,Pitch即为F0, Formant取F1、F2和F3,同时提供F0、F1、F2和F3的一阶和二阶差分参数。6. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述获取发音质量评估和检错模型训练数据的步骤,具体包括利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,以此作为训练各音素G匪模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以各音素对应的正负样本作为训练各音素SVM模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本和标注结果的对应关系,以此作为训练MLP模型的数据。7. 根据权利要求6所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,具体包括对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对辅对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对韵母。8. 根据权利要求6所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。9. 根据权利要求1所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练多个发音质量评估和检错系统的步骤,具体包括训练GMM评检模型;训练SVM评检模型;以及训练MLP评检模型。10. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练G匪评检模型,具体包括针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型;针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的G匪模型。11. 根据权利要求9所述的基于多特征和多系统融合的发音质量评估和错误检测方法,其特征在于,所述训练SVM评检模型,具体包括SVM训练的正负样本比例保持在1 : l左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核...

【专利技术属性】
技术研发人员:徐波李宏言梁家恩高鹏王士进李鹏
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利