一种基于深度音频特征的构音障碍严重程度估计方法技术

技术编号:19062277 阅读:24 留言:0更新日期:2018-09-29 13:16
本发明专利技术公开了一种基于深度音频特征的构音障碍严重程度估计方法,包括:提取声学特征;将上述声学特征输入带瓶颈层的深度神经网络,从瓶颈层提取深度音频特征;将上述深度音频特征作为输入,采用Baum‑Welch算法训练的隐马尔可夫模型;最后将测试语音样本的深度音频特征依次输入上述训练好的四个隐马尔可夫模型,采用Viterbi算法得到四个输出概率,输出概率最大的模型所对应的类别也就是构音障碍严重程度即为判决结果。本发明专利技术采用的深度音频特征是一种深层变换特征,相比于传统声学特征能更有效刻画构音障碍语音的特性差异,在构音障碍严重程度估计中可以获得更加优异的效果。

【技术实现步骤摘要】
一种基于深度音频特征的构音障碍严重程度估计方法
本专利技术涉及语音处理和深度学习技术,尤其涉及一种基于深度音频特征的构音障碍严重程度估计方法。
技术介绍
构音障碍是儿童各类言语功能障碍中最常见的一种,常表现为吐字不清,可细分为省略音、替代音,歪曲音和赘加音,均影响正常的言语交流,常导致对方无法理解患者希望表达的内容。然而,由于不会给患者带来明显的外表缺陷或身体上的痛苦,这种病症常常无法及时被发现,从而延误了最佳的矫正时间。随着儿童年龄的增长,构音障碍的康复训练所需的时间和金钱成本也会迅速提高。因此,及时发现儿童是否存在构音障碍问题对于患儿的康复有着重要意义。目前,国内对于构音障碍的评估方法主要有描记法、音标法、标准化测验法等。均需要专业人士进行主观地评估,康复矫治也是在评估的基础上进行。然而,由于我国相关领域专业人士的不足,相当一部分构音障碍患者得不到及时治疗。此外,评估方法主观性较强,不同专家很可能对其严重程度做出不同的评估。现有的检查仪器方法,譬如光纤维腭咽喉内镜检查、电视荧光放射照相术等检查法,喉动态描记法、舌压力传感器等等,虽然评价比较客观准确,但是这些仪器普遍比较昂贵,且一些诊断方法具有入侵性,给患者带来严重的不适,患者非常不乐意配合诊断。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种基于深度音频特征的构音障碍严重程度估计方法。本专利技术的方法采用深度神经网络提取语音的深度音频特征,再采用Baum-Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型(HiddenMarkovModel,HMM),然后对隐马尔可夫模型分类器进行判决,从而估计测试者构音障碍的严重程度。本专利技术采用如下技术方案:一种基于深度音频特征的构音障碍严重程度估计方法,包括如下步骤:S1、对语音数据进行预处理,提取声学特征,所述声学特征包括线性预测系数、基频、基频微扰、振幅、振幅微扰,过零率及共振峰,得到语音数据特征矩阵F=[线性预测系数,基频,基频微扰,振幅,振幅微扰,过零率,共振峰];S2、将语音数据特征矩阵F作为输入,通过无监督预训练和有监督精确调整两个步骤构造带瓶颈层的深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取语音数据所对应的深度音频特征;S3、将训练语音数据的深度音频特征作为输入,采用Baum-Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型;S4、采用S2步骤提取测试语音的深度音频特征,采用Viterbi算法计算深度音频特征输入每个隐马尔可夫模型的输出概率,输出概率最大的模型对应的类别作为判决结果。所述S1中预处理,具体包括如下步骤:S1.1、预加重:采用传递函数为H(z)=1-αz-1的数字滤波器对输入的语音数据进行滤波,其中α为一个取值范围在[0.9,1]的常系数;S1.2、分帧:将预加重后的语音切分成固定长度的语音帧,帧长为L,帧移为S,第t帧语音表示为xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;S1.3、加窗:将各帧语音与窗函数ω(n)相乘,取汉明窗为窗函数ω(n):所述S1中提取线性预测系数,具体包括以下步骤:计算加窗后的第t帧语音xt(n)的自相关函数Rt(j):得到Yule-Walker矩阵方程,其中p为线性预测系数的阶数;采用莱文逊-杜宾算法求解上述矩阵方程,得到最终解为所提取的线性预测系数。S1中提取基频F0,具体采用自相关法,步骤如下:对语音帧xt(n)做中心削波处理,得到yt(n):其中CL值为语音帧最大幅度的0.65倍;计算yt(n)的自相关函数;检测Ry(i)的峰值点,得到峰值点集合VP,则基音周期,其中I为峰值点数,T0取倒数即为第t帧语音的基频F0(t)。所述构造带瓶颈层的深度神经网络特征提取器,具体步骤为:S2.1、通过逐层堆叠受限玻尔兹曼机构造深度置信网络,并获取预训练所需要的网络参数,包括如下步骤:S2.1.1、选取每帧的前后若干帧作为上下文信息,设置受限玻尔兹曼机的可视层和隐含层的节点数,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机;S2.1.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层,并保持隐含层节点数和可视层节点数相同,迭代训练一个伯努利-伯努利受限玻尔兹曼机;S2.1.3、按照S2.1.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层,将受限玻尔兹曼机的隐含层节点数设置为特征维数的2倍,按照S2.1.1的步骤,迭代训练伯努利-伯努利受限玻尔兹曼机,恢复隐含层节点数为1024,按照S2.1.1的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层,将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的深度置信网络;S2.2、采用有监督训练方法对预训练后的深度置信网络参数进行精确调整,具体在原网络的基础上再增加一个输出层,并随机初始化深度置信网络最后一层与该增加的输出层之间的网络参数,利用反向传播算法有监督地调整深度神经网络参数,设置最大迭代次数,当相邻两次迭代的损失变化率小于设定的门限时终止训练。所述步骤S3中训练隐马尔可夫模型具体包括以下步骤:S3.1、隐马尔可夫模型的基本参数为λ=(π,A,B),其中π是初始概率分布,表示隐马尔可夫模型的初始状态以一定的概率取N个状态S1,S2,…,SN中的任意一个,πi表示隐马尔可夫模型从第i个状态Si开始的概率,即πi=P(q1=Si),1≤i≤N,A表示状态转移概率矩阵,t时刻从状态Si转移到t+1时刻的状态Sj的概率为aij=P(qt+1=Sj|qt=Si),1≤i≤N,1≤j≤N,B表示特征序列O={O1,O2,…,OT}的概率分布,特征概率分布B为N个D维的概率密度函数的集合B={bij(O),j=1,2,…,N},其中bij(O)表示从状态Si到状态Sj转移时输出O的概率;S3.2、为了提高识别精度,采用多样本值,即多特征序列的隐马尔可夫模型进行训练,对于多特征序列隐马尔可夫模型,基本参数表示为其中,特征概率分布变为B={bij(Ot)|1≤i,j≤N,1≤t≤T},并且定义混合概率密度函数的个数为M,μjm、和ωjm分别表示状态Sj条件下第m个混合高斯元的均值、协方差和权值,bij表示输出为Ot的概率S3.3、训练多特征序列的隐马尔可夫模型,具体包括以下步骤:S3.3.1、根据前向算法递推计算第l(1≤l≤L)个训练样本的前向概率变量α0(1)=1,α0(j)=01<j≤N,αt(j)=P(O1O2…Ot|qt=Sj,λ)1≤t≤T,1≤i≤N;S3.3.2、根据后向算法递推计算第l(1≤l≤L)个训练样本的后向概率变量βT(N)=1,βT(j)=01≤j<N,βt(i)=P(Ot+1Ot+2…OT|qt=Si,λ)T≤t,1≤i≤N;S3.3.3、按照S3.4.1和S3.4.2分别对L个训练样本求其前向概率变量和后向概率变量由Baum-Welch算法的重估公式:其中,和本文档来自技高网...

【技术保护点】
1.一种基于深度音频特征的构音障碍严重程度估计方法,其特征在于,包括如下步骤:S1、对语音数据进行预处理,提取声学特征,所述声学特征包括线性预测系数、基频、基频微扰、振幅、振幅微扰,过零率及共振峰,得到语音数据特征矩阵F=[线性预测系数,基频,基频微扰,振幅,振幅微扰,过零率,共振峰];S2、将语音数据特征矩阵F作为输入,通过无监督预训练和有监督精确调整两个步骤构造带瓶颈层的深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取语音数据所对应的深度音频特征;S3、将训练语音数据的深度音频特征作为输入,采用Baum‑Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型;S4、采用S2步骤提取测试语音的深度音频特征,采用Viterbi算法计算深度音频特征输入每个隐马尔可夫模型的输出概率,输出概率最大的模型对应的类别作为判决结果。

【技术特征摘要】
1.一种基于深度音频特征的构音障碍严重程度估计方法,其特征在于,包括如下步骤:S1、对语音数据进行预处理,提取声学特征,所述声学特征包括线性预测系数、基频、基频微扰、振幅、振幅微扰,过零率及共振峰,得到语音数据特征矩阵F=[线性预测系数,基频,基频微扰,振幅,振幅微扰,过零率,共振峰];S2、将语音数据特征矩阵F作为输入,通过无监督预训练和有监督精确调整两个步骤构造带瓶颈层的深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取语音数据所对应的深度音频特征;S3、将训练语音数据的深度音频特征作为输入,采用Baum-Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型;S4、采用S2步骤提取测试语音的深度音频特征,采用Viterbi算法计算深度音频特征输入每个隐马尔可夫模型的输出概率,输出概率最大的模型对应的类别作为判决结果。2.根据权利要求1所述的构音障碍严重程度估计方法,其特征在于,所述S1中预处理,具体包括如下步骤:S1.1、预加重:采用传递函数为H(z)=1-αz-1的数字滤波器对输入的语音数据进行滤波,其中α为一个取值范围在[0.9,1]的常系数;S1.2、分帧:将预加重后的语音切分成固定长度的语音帧,帧长为L,帧移为S,第t帧语音表示为x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;S1.3、加窗:将各帧语音与窗函数ω(n)相乘,取汉明窗为窗函数ω(n):3.根据权利要求2所述的构音障碍严重程度估计方法,其特征在于,所述S1中提取线性预测系数,具体包括以下步骤:计算加窗后的第t帧语音xt(n)的自相关函数Rt(j):得到Yule-Walker矩阵方程,其中p为线性预测系数的阶数;采用莱文逊-杜宾算法求解上述矩阵方程,得到最终解为所提取的线性预测系数。4.根据权利要求2所述的构音障碍严重程度估计方法,其特征在于,S1中提取基频F0,具体采用自相关法,步骤如下:对语音帧xt(n)做中心削波处理,得到yt(n):其中CL值为语音帧最大幅度的0.65倍;计算yt(n)的自相关函数:检测Ry(i)的峰值点,得到峰值点集合VP,则基音周期,其中I为峰值点数,T0取倒数即为第t帧语音的基频F0(t)。5.根据权利要求1所述的构音障碍严重程度估计方法,其特征在于,所述构造带瓶颈层的深度神经网络特征提取器,具体步骤为:S2.1、通过逐层堆叠受限玻尔兹曼机构造深度置信网络,并获取预训练所需要的网络参数,包括如下步骤:S2.1.1、选取每帧的前后若干帧作为上下文信息,设置受限玻尔兹曼机的可视层和隐含层的节点数,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机;S2.1.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层,并保持隐含层节点数和可视层节点数相同,迭代训练一个伯努利-伯努利受限玻尔兹曼机;S2.1.3、按照S2.1.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层,将受限玻尔兹曼机的隐含层节点数设置为特征维数的2倍,按照S2.1.1的步骤,迭代训练伯努利-伯努利受限玻尔兹曼机,恢复隐含层节点数为1024,按照S2.1.1的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层,将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的深度置信网络;S2.2、采用有监督训练方法对预训练后的深度...

【专利技术属性】
技术研发人员:李鹏乾李艳雄李锦彬
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1