一种文本相关的英语口语发音错误检测与质量评分方法技术

技术编号：17781707 阅读：23 留言：0更新日期：2018-04-22 11:25

本发明专利技术提供一种文本相关的英语口语发音错误检测与质量评分方法，该方法是一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理模型。说话人英语朗读的英语口语发音通过该处理模型分析后，最后能够检测出该说话人英语口语发音中的错误并给出其发音质量的分数。本发明专利技术的方法解决了说话人英语朗读的英语口语发音错误检测和发音质量自动评分的问题，其处理分析结果比人工的说话人英语朗读的英语口语发音错误检测和发音质量评分的结果更准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相关的英语口语发音错误检测与质量评分方法
本专利技术涉及发音识别技术、信号处理技术和自然语言处理技术，具体是一种利用计算机系统对英语文本相关的英语口语发音错误检测与质量评分的方法。
技术介绍
根据英语口语发音对应的英语文本是否己知，可以将英语口语发音错误检测与发音质量评分方法分为文本相关和文本无关两大类。其中的文本相关是指在进行英语口语发音错误检测与质量评分时，已知说话人的英语朗读文本，而文本无关表示不知道说话人的英语朗读文本。显然，文本无关的情况比较复杂，需要先对说话人的英语口语发音进行精确的识别，然后将其转换为文本相关的英语口语发音错误检测与质量评分类型。本专利技术针对的是文本相关的英语口语发音错误检测与质量评分方法。现有的文本相关的英语口语发音错误检测与质量评分方法主要是基于自动发音识别技术，采用后验概率算法或其改进算法得到的音素后验概率值分布不均匀，可操作性差。本专利技术为了解决上述问题，提供了一种文本相关的英语口语发音错误检测与质量评分方法。
技术实现思路
本专利技术的文本相关的英语口语发音错误检测与质量评分方法的总体处理方法如图1所示，其中包括英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块。其中的英语口语发音预处理模块的处理方法是：第一，读入一句待测发音，对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取；第二，输出待测发音的声学特征，作为该英语口语发音预处理的结果。其中的英语口语发音错误检测模块的处理方法是：第一，读入待测发音的声学特征，进行发音识别；第二，根据公式计算各...
一种文本相关的英语口语发音错误检测与质量评分方法

【技术保护点】
一种文本相关的英语口语发音错误检测与质量评分方法，其特征是：包括一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理方法，其具体的处理方法如下：(1)英语口语发音预处理模块的处理方法是：第一，读入一句待测发音，对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取；第二，输出待测发音的声学特征，作为该英语口语发音预处理的结果；(2)英语口语发音错误检测模块的处理方法是：第一，读入待测发音的声学特征，进行发音识别；第二，根据公式计算各发音帧每个音素的发音标准度得分；第三，输出各发音帧每个音素的发音标准度得分，并进行错误判决；(3)英语口语发音质量评分模块的处理方法是：第一，读入各发音帧每个音素的发音标准度得分和发音识别结果；第二，根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分，并根据识别结果计算语速、段时长和静音时长等评分特征；第三，对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分，输出该句子发音的初始得分；第四，分别建立5类多层感知器神经网络分类器，把...

【技术特征摘要】
1.一种文本相关的英语口语发音错误检测与质量评分方法，其特征是：包括一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理方法，其具体的处理方法如下：(1)英语口语发音预处理模块的处理方法是：第一，读入一句待测发音，对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取；第二，输出待测发音的声学特征，作为该英语口语发音预处理的结果；(2)英语口语发音错误检测模块的处理方法是：第一，读入待测发音的声学特征，进行发音识别；第二，根据公式计算各发音帧每个音素的发音标准度得分；第三，输出各发音帧每个音素的发音标准度得分，并进行错误判决；(3)英语口语发音质量评分模块的处理方法是：第一，读入各发音帧每个音素的发音标准度得分和发音识别结果；第二，根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分，并根据识别结果计算语速、段时长和静音时长等评分特征；第三，对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分，输出该句子发音的初始得分；第四，分别建立5类多层感知器神经网络分类器，把调整之后的4个评分特征输入到5类分类器中，计算5类分类器的输出值和该句子发音的最终得分，并输出该句子发音的最终得分和相应评语。2.根据权利要求1所述的处理方法，其特征是：所述的英语口语发音预处理模块处理方法的步骤如下：P201开始；P202读入待测发音；P203对待测发音进行预加重；P204对待测发音进行分帧加窗；P205读入待测发音对应的文本；P206加载发音词典和语法模型；P207将待测发音对应的文本扩展成识别网络；P208加载声学模型；P209对分帧加窗后的待测发音进行搜索解码；P210获取待测发音对应的音素序列及其时间边界；P211对各音素边界内的发音帧进行离散傅里叶变换；P212创建一组梅尔滤波器，使经离散傅里叶变换后输出的频率变为梅尔刻度频率，信号频谱经过梅尔滤波器组后得到对应的梅尔谱；P213取对数，将梅尔谱转化为对数形式；P214对梅尔谱做离散余弦变换得到梅尔倒谱系数；P215对梅尔倒谱系数进行差分提取，得到当前倒谱系数的一阶和二阶差分系数，并将其作为当前发音帧的声学特征向量，从而得到当前发音帧的声学特征，输出待测发音的声学特征；P216结束。3.根据权利要求1所述的处理方法，其特征是：所述的英语口语发音错误检测模块的计算公式如下：(1)似然度的计算公式在计算公式(1)中，似然度是指模型参数与观测数据之间相似性，t1表示音素的起始时间，t2表示音素的结束时间；(2)音素发音帧的发音标准度得分的计算公式在计算公式(2)中，各音素发音帧的发音标准度得分是指识别出的发音帧中当前待测音素的概率值，这个概率值反映了当前待测音素的发音标准程度；观察矢量v是指当前待测音素所对应的发音帧的声学特征；似然度是指当前待测音素所对应的发音帧通过隐马尔科夫模型计算得出的条件概率值，由计算公式(1)计算得出。4.根据权利要求1或3所述的处理方法，其特征是：所述的英语口语发音错误检测模块处理方法的步骤如下：P301开始；P302读入待测发音的声学特征；P303加载经最大似然线性回归自适应和最大后验概率自适应调整后的改进型声学模型、发音词典、语法模型；P304对待测发音的声学特征进行发音识别；P305加载经最大似然线性回归自适应的声学模型；P306根据计算公式(1)和计算公式(2)计算各音素发音帧的发音标准度得分，输出各音素发音帧的发音标准度得分；P307判断各音素发音帧的发音标准度得分是否大于系统阈值,若各音素发音帧的发音标准度得分大于系统阈值，转P308操作，否则转P309操作；P308标记该音素为正确的发音；P309标记该音素为错误的发音；P310结束。5.根据权利要求1所述的处理方法，其特征是：所述的英语口语发音质量评分模块的计算公式如下：(3)句子发音标准度得分的计算公式在计算公式(3)中，句子发音标准度得分是指当前句子中各个音素发音帧的发音标准度得分的平均值，反映了当前句子的发音标准程度；i＝1，2，3，…，n，i是指句子中每个音素对应的序号，n是指发音中的音素总数；句子中各音素发音帧i的发音标准度得分是指当前句子中第i个音素发音帧的发音标准度得分，由计算公式(2)计算得出；(4)语速的计算公式在计算公式(4)中，语速是指说话人的发音速度；(5)音素段时长的计算公式在计算公式(5)中，音素段时长是指发音中音素的持续时间，是衡量说话人的发音是否清晰的指标；i＝1，2，3，…，n，i是指句子中包含的每个音素对应的序号，n是指发音包含的音素总数；exp是指以自然常数e为底的指数函数；语速由计算公式(4)计算得出；待测音素i持续时间是指发音中第i个待测音素的持续时间；待测音素i段时长均值是指发音中第i个待测音素的的段时长均值，它是通过将所有标准发音样本中所有音素持续时间的总和与标准发音样本总数相除得到的；待测音素i段时长方差是指发音中第i个待测音素的段时长方差，它是通过将每个标准发音样本中当前待测音素的持续时间减去其对应的段时长均值的平方和，并将该平方和与标准发音样本总...

【专利技术属性】
技术研发人员：黄桂敏，叶婧，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人