一种文本相关的英语口语发音错误检测与质量评分方法技术

技术编号:17781707 阅读:23 留言:0更新日期:2018-04-22 11:25
本发明专利技术提供一种文本相关的英语口语发音错误检测与质量评分方法,该方法是一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理模型。说话人英语朗读的英语口语发音通过该处理模型分析后,最后能够检测出该说话人英语口语发音中的错误并给出其发音质量的分数。本发明专利技术的方法解决了说话人英语朗读的英语口语发音错误检测和发音质量自动评分的问题,其处理分析结果比人工的说话人英语朗读的英语口语发音错误检测和发音质量评分的结果更准确。

【技术实现步骤摘要】
一种文本相关的英语口语发音错误检测与质量评分方法
本专利技术涉及发音识别技术、信号处理技术和自然语言处理技术,具体是一种利用计算机系统对英语文本相关的英语口语发音错误检测与质量评分的方法。
技术介绍
根据英语口语发音对应的英语文本是否己知,可以将英语口语发音错误检测与发音质量评分方法分为文本相关和文本无关两大类。其中的文本相关是指在进行英语口语发音错误检测与质量评分时,已知说话人的英语朗读文本,而文本无关表示不知道说话人的英语朗读文本。显然,文本无关的情况比较复杂,需要先对说话人的英语口语发音进行精确的识别,然后将其转换为文本相关的英语口语发音错误检测与质量评分类型。本专利技术针对的是文本相关的英语口语发音错误检测与质量评分方法。现有的文本相关的英语口语发音错误检测与质量评分方法主要是基于自动发音识别技术,采用后验概率算法或其改进算法得到的音素后验概率值分布不均匀,可操作性差。本专利技术为了解决上述问题,提供了一种文本相关的英语口语发音错误检测与质量评分方法。
技术实现思路
本专利技术的文本相关的英语口语发音错误检测与质量评分方法的总体处理方法如图1所示,其中包括英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块。其中的英语口语发音预处理模块的处理方法是:第一,读入一句待测发音,对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取;第二,输出待测发音的声学特征,作为该英语口语发音预处理的结果。其中的英语口语发音错误检测模块的处理方法是:第一,读入待测发音的声学特征,进行发音识别;第二,根据公式计算各发音帧每个音素的发音标准度得分;第三,输出各发音帧每个音素的发音标准度得分,并进行错误判决。其中的英语口语发音质量评分模块的处理方法是:第一,读入各发音帧每个音素的发音标准度得分和发音识别结果;第二,根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分,并根据识别结果计算语速、段时长和静音时长等评分特征;第三,对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分,输出该句子发音的初始得分;第四,分别建立5类多层感知器神经网络分类器,把调整之后的4个评分特征输入到5类分类器中,计算5类分类器的输出值和该句子发音的最终得分,并输出该句子发音的最终得分和相应评语。1.本专利技术方法的基本概念定义如下:(1)音素音素是发音的最小单元,一般分为元音和辅音两种。在英语中,一个元音音素可以构成一个音节,也可以由一个元音音素和几个辅音音素结合构成一个音节,而一个或多个音节组成一个英语单词。(2)隐马尔科夫模型隐马尔科夫模型根包含一组以一定概率互相转换的状态,在每个状态下会以一定概率观测到某个事件的发生,它用三个概率矩阵集合Π、A、B来表示,其定义如下:Π=(πi):表示隐马尔科夫模型初始状态的概率分布,其中π是指初始时刻隐马尔科夫模型处于第一个状态的概率,πi表示初始时刻隐马尔科夫模型处于第i个状态的概率。A=(aij):表示隐马尔科夫模型的状态转移概率矩阵,其中a是指隐马尔科夫模型的状态转移概率,aij表示从第i个状态转移到第j个状态的概率。B={bi(γ)}:表示隐马尔科夫模型的状态发射概率矩阵,其中b是指隐马尔科夫模型中某个状态出现了一个可观察状态的概率,γ是指隐马尔科夫模型的输出观测矢量,bi(γ)表示进入第i个状态时产生观察到观测矢量γ的概率。(3)音素段时长音素段时长是指发音中音素的持续时间,是衡量说话人的发音是否清晰的一个指标。(4)静音时长静音时长是指说话人在发音期间出现的停顿时间,是衡量说话人的发音是否连贯的一个指标。(5)多层感知器神经网络多层感知器神经网络模型,是一种前向结构的神经网络,由输入层、隐层(一个或多个)、输出层构成,输入层的每个节点对应于输入向量的每一维,它把每一维信号传递给下一层的每个节点,输出层一般只有一个节点,输入层和输出层之间的每一层都称为隐层。本专利技术使用的多层感知神经网络只有一个隐层,且隐层共有三个神经元即三个节点。为了使多层感知器神经网络中的连接权值得到充分的训练,本专利技术分别建立5类多层感知器神经网络分类器,其中,第一类分类器,其索引为1,对应发音错误单词极多、发音极其不流畅的发音数据;第二类分类器,其索引为2,对应发音错误单词较多、发音期间停顿时间较长的发音数据;第三类分类器,其索引为3,对应发音错误单词较少、发音期间有停顿的发音数据;第四类分类器,其索引为4,对应发音错误单词极少、发音较标准且较流畅的发音数据;第五类分类器,其索引为5,对应不存在发音错误的单词、发音标准且流畅的发音数据。(6)反向传播计算反向传播计算是调整神经网络输出层与隐层、各个隐层、隐层与输入层之间的连接权值,并使神经网络在所有训练样本上的预测输出值与期望输出值的均方误差最小化。反向传播计算的具体步骤是:第一,初始化神经网络的输入层、隐层、输出层的权值;第二,计算训练样本在神经网络输出层的输出值,然后计算该输出值与期望值之间的误差,不断调整神经网络输出层与隐层之间的连接权值;第三,把该误差传播到神经网络隐层中的各个节点上,根据该误差调整神经网络各个隐层之间的连接权值;第四,把该误差传播到神经网络隐层中的各个节点上,根据该误差调整神经网络隐层与输入层之间的连接权值;第五,使用所有的训练样本不断调整神经网络输出层与隐层、各个隐层、隐层与输入层之间的连接权值,直到训练样本在神经网络输出层的输出值与期望值之间的误差减小到期望值,神经网络在所有训练样本上的预测输出值与期望输出值的均方误差最小。2.本专利技术方法的计算公式定义如下:(1)似然度的计算公式在计算公式(1)中,似然度是指模型参数与观测数据之间相似性,t1表示音素的起始时间,t2表示音素的结束时间。(2)音素发音帧的发音标准度得分的计算公式在计算公式(2)中,各音素发音帧的发音标准度得分是指识别出的发音帧中当前待测音素的概率值,这个概率值反映了当前待测音素的发音标准程度;观察矢量v是指当前待测音素所对应的发音帧的声学特征;似然度是指当前待测音素所对应的发音帧通过隐马尔科夫模型计算得出的条件概率值,由计算公式(1)计算得出。(3)句子发音标准度得分的计算公式在计算公式(3)中,句子发音标准度得分是指当前句子中各个音素发音帧的发音标准度得分的平均值,反映了当前句子的发音标准程度;i=1,2,3,…,n,i是指句子中每个音素对应的序号,n是指发音中的音素总数;句子中各音素发音帧i的发音标准度得分是指当前句子中第i个音素发音帧的发音标准度得分,由计算公式(2)计算得出。(4)语速的计算公式在计算公式(4)中,语速是指说话人的发音速度。(5)音素段时长的计算公式在计算公式(5)中,音素段时长是指发音中音素的持续时间,是衡量说话人的发音是否清晰的指标;i=1,2,3,…,n,i是指句子中包含的每个音素对应的序号,n是指发音包含的音素总数;exp是指以自然常数e为底的指数函数;语速由计算公式(4)计算得出;待测音素i持续时间是指发音中第i个待测音素的持续时间;待测音素i段时长均值是指发音中第i个待测音素的的段时长均值,它是通过将所有标准发音样本中所有音素持续时间的总和与标准发音样本文档来自技高网...
一种文本相关的英语口语发音错误检测与质量评分方法

【技术保护点】
一种文本相关的英语口语发音错误检测与质量评分方法,其特征是:包括一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理方法,其具体的处理方法如下:(1)英语口语发音预处理模块的处理方法是:第一,读入一句待测发音,对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取;第二,输出待测发音的声学特征,作为该英语口语发音预处理的结果;(2)英语口语发音错误检测模块的处理方法是:第一,读入待测发音的声学特征,进行发音识别;第二,根据公式计算各发音帧每个音素的发音标准度得分;第三,输出各发音帧每个音素的发音标准度得分,并进行错误判决;(3)英语口语发音质量评分模块的处理方法是:第一,读入各发音帧每个音素的发音标准度得分和发音识别结果;第二,根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分,并根据识别结果计算语速、段时长和静音时长等评分特征;第三,对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分,输出该句子发音的初始得分;第四,分别建立5类多层感知器神经网络分类器,把调整之后的4个评分特征输入到5类分类器中,计算5类分类器的输出值和该句子发音的最终得分,并输出该句子发音的最终得分和相应评语。...

【技术特征摘要】
1.一种文本相关的英语口语发音错误检测与质量评分方法,其特征是:包括一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理方法,其具体的处理方法如下:(1)英语口语发音预处理模块的处理方法是:第一,读入一句待测发音,对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取;第二,输出待测发音的声学特征,作为该英语口语发音预处理的结果;(2)英语口语发音错误检测模块的处理方法是:第一,读入待测发音的声学特征,进行发音识别;第二,根据公式计算各发音帧每个音素的发音标准度得分;第三,输出各发音帧每个音素的发音标准度得分,并进行错误判决;(3)英语口语发音质量评分模块的处理方法是:第一,读入各发音帧每个音素的发音标准度得分和发音识别结果;第二,根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分,并根据识别结果计算语速、段时长和静音时长等评分特征;第三,对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分,输出该句子发音的初始得分;第四,分别建立5类多层感知器神经网络分类器,把调整之后的4个评分特征输入到5类分类器中,计算5类分类器的输出值和该句子发音的最终得分,并输出该句子发音的最终得分和相应评语。2.根据权利要求1所述的处理方法,其特征是:所述的英语口语发音预处理模块处理方法的步骤如下:P201开始;P202读入待测发音;P203对待测发音进行预加重;P204对待测发音进行分帧加窗;P205读入待测发音对应的文本;P206加载发音词典和语法模型;P207将待测发音对应的文本扩展成识别网络;P208加载声学模型;P209对分帧加窗后的待测发音进行搜索解码;P210获取待测发音对应的音素序列及其时间边界;P211对各音素边界内的发音帧进行离散傅里叶变换;P212创建一组梅尔滤波器,使经离散傅里叶变换后输出的频率变为梅尔刻度频率,信号频谱经过梅尔滤波器组后得到对应的梅尔谱;P213取对数,将梅尔谱转化为对数形式;P214对梅尔谱做离散余弦变换得到梅尔倒谱系数;P215对梅尔倒谱系数进行差分提取,得到当前倒谱系数的一阶和二阶差分系数,并将其作为当前发音帧的声学特征向量,从而得到当前发音帧的声学特征,输出待测发音的声学特征;P216结束。3.根据权利要求1所述的处理方法,其特征是:所述的英语口语发音错误检测模块的计算公式如下:(1)似然度的计算公式在计算公式(1)中,似然度是指模型参数与观测数据之间相似性,t1表示音素的起始时间,t2表示音素的结束时间;(2)音素发音帧的发音标准度得分的计算公式在计算公式(2)中,各音素发音帧的发音标准度得分是指识别出的发音帧中当前待测音素的概率值,这个概率值反映了当前待测音素的发音标准程度;观察矢量v是指当前待测音素所对应的发音帧的声学特征;似然度是指当前待测音素所对应的发音帧通过隐马尔科夫模型计算得出的条件概率值,由计算公式(1)计算得出。4.根据权利要求1或3所述的处理方法,其特征是:所述的英语口语发音错误检测模块处理方法的步骤如下:P301开始;P302读入待测发音的声学特征;P303加载经最大似然线性回归自适应和最大后验概率自适应调整后的改进型声学模型、发音词典、语法模型;P304对待测发音的声学特征进行发音识别;P305加载经最大似然线性回归自适应的声学模型;P306根据计算公式(1)和计算公式(2)计算各音素发音帧的发音标准度得分,输出各音素发音帧的发音标准度得分;P307判断各音素发音帧的发音标准度得分是否大于系统阈值,若各音素发音帧的发音标准度得分大于系统阈值,转P308操作,否则转P309操作;P308标记该音素为正确的发音;P309标记该音素为错误的发音;P310结束。5.根据权利要求1所述的处理方法,其特征是:所述的英语口语发音质量评分模块的计算公式如下:(3)句子发音标准度得分的计算公式在计算公式(3)中,句子发音标准度得分是指当前句子中各个音素发音帧的发音标准度得分的平均值,反映了当前句子的发音标准程度;i=1,2,3,…,n,i是指句子中每个音素对应的序号,n是指发音中的音素总数;句子中各音素发音帧i的发音标准度得分是指当前句子中第i个音素发音帧的发音标准度得分,由计算公式(2)计算得出;(4)语速的计算公式在计算公式(4)中,语速是指说话人的发音速度;(5)音素段时长的计算公式在计算公式(5)中,音素段时长是指发音中音素的持续时间,是衡量说话人的发音是否清晰的指标;i=1,2,3,…,n,i是指句子中包含的每个音素对应的序号,n是指发音包含的音素总数;exp是指以自然常数e为底的指数函数;语速由计算公式(4)计算得出;待测音素i持续时间是指发音中第i个待测音素的持续时间;待测音素i段时长均值是指发音中第i个待测音素的的段时长均值,它是通过将所有标准发音样本中所有音素持续时间的总和与标准发音样本总数相除得到的;待测音素i段时长方差是指发音中第i个待测音素的段时长方差,它是通过将每个标准发音样本中当前待测音素的持续时间减去其对应的段时长均值的平方和,并将该平方和与标准发音样本总...

【专利技术属性】
技术研发人员:黄桂敏叶婧
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1