【技术实现步骤摘要】
一种基于深度音频特征的构音障碍严重程度估计方法
本专利技术涉及语音处理和深度学习技术,尤其涉及一种基于深度音频特征的构音障碍严重程度估计方法。
技术介绍
构音障碍是儿童各类言语功能障碍中最常见的一种,常表现为吐字不清,可细分为省略音、替代音,歪曲音和赘加音,均影响正常的言语交流,常导致对方无法理解患者希望表达的内容。然而,由于不会给患者带来明显的外表缺陷或身体上的痛苦,这种病症常常无法及时被发现,从而延误了最佳的矫正时间。随着儿童年龄的增长,构音障碍的康复训练所需的时间和金钱成本也会迅速提高。因此,及时发现儿童是否存在构音障碍问题对于患儿的康复有着重要意义。目前,国内对于构音障碍的评估方法主要有描记法、音标法、标准化测验法等。均需要专业人士进行主观地评估,康复矫治也是在评估的基础上进行。然而,由于我国相关领域专业人士的不足,相当一部分构音障碍患者得不到及时治疗。此外,评估方法主观性较强,不同专家很可能对其严重程度做出不同的评估。现有的检查仪器方法,譬如光纤维腭咽喉内镜检查、电视荧光放射照相术等检查法,喉动态描记法、舌压力传感器等等,虽然评价比较客观准确,但是这些仪器普遍比较昂贵,且一些诊断方法具有入侵性,给患者带来严重的不适,患者非常不乐意配合诊断。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种基于深度音频特征的构音障碍严重程度估计方法。本专利技术的方法采用深度神经网络提取语音的深度音频特征,再采用Baum-Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型(HiddenMarkovMod ...
【技术保护点】
1.一种基于深度音频特征的构音障碍严重程度估计方法,其特征在于,包括如下步骤:S1、对语音数据进行预处理,提取声学特征,所述声学特征包括线性预测系数、基频、基频微扰、振幅、振幅微扰,过零率及共振峰,得到语音数据特征矩阵F=[线性预测系数,基频,基频微扰,振幅,振幅微扰,过零率,共振峰];S2、将语音数据特征矩阵F作为输入,通过无监督预训练和有监督精确调整两个步骤构造带瓶颈层的深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取语音数据所对应的深度音频特征;S3、将训练语音数据的深度音频特征作为输入,采用Baum‑Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型;S4、采用S2步骤提取测试语音的深度音频特征,采用Viterbi算法计算深度音频特征输入每个隐马尔可夫模型的输出概率,输出概率最大的模型对应的类别作为判决结果。
【技术特征摘要】
1.一种基于深度音频特征的构音障碍严重程度估计方法,其特征在于,包括如下步骤:S1、对语音数据进行预处理,提取声学特征,所述声学特征包括线性预测系数、基频、基频微扰、振幅、振幅微扰,过零率及共振峰,得到语音数据特征矩阵F=[线性预测系数,基频,基频微扰,振幅,振幅微扰,过零率,共振峰];S2、将语音数据特征矩阵F作为输入,通过无监督预训练和有监督精确调整两个步骤构造带瓶颈层的深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取语音数据所对应的深度音频特征;S3、将训练语音数据的深度音频特征作为输入,采用Baum-Welch算法训练代表正常语音、轻度构音障碍语音、中度构音障碍语音和重度构音障碍语音的隐马尔可夫模型;S4、采用S2步骤提取测试语音的深度音频特征,采用Viterbi算法计算深度音频特征输入每个隐马尔可夫模型的输出概率,输出概率最大的模型对应的类别作为判决结果。2.根据权利要求1所述的构音障碍严重程度估计方法,其特征在于,所述S1中预处理,具体包括如下步骤:S1.1、预加重:采用传递函数为H(z)=1-αz-1的数字滤波器对输入的语音数据进行滤波,其中α为一个取值范围在[0.9,1]的常系数;S1.2、分帧:将预加重后的语音切分成固定长度的语音帧,帧长为L,帧移为S,第t帧语音表示为x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;S1.3、加窗:将各帧语音与窗函数ω(n)相乘,取汉明窗为窗函数ω(n):3.根据权利要求2所述的构音障碍严重程度估计方法,其特征在于,所述S1中提取线性预测系数,具体包括以下步骤:计算加窗后的第t帧语音xt(n)的自相关函数Rt(j):得到Yule-Walker矩阵方程,其中p为线性预测系数的阶数;采用莱文逊-杜宾算法求解上述矩阵方程,得到最终解为所提取的线性预测系数。4.根据权利要求2所述的构音障碍严重程度估计方法,其特征在于,S1中提取基频F0,具体采用自相关法,步骤如下:对语音帧xt(n)做中心削波处理,得到yt(n):其中CL值为语音帧最大幅度的0.65倍;计算yt(n)的自相关函数:检测Ry(i)的峰值点,得到峰值点集合VP,则基音周期,其中I为峰值点数,T0取倒数即为第t帧语音的基频F0(t)。5.根据权利要求1所述的构音障碍严重程度估计方法,其特征在于,所述构造带瓶颈层的深度神经网络特征提取器,具体步骤为:S2.1、通过逐层堆叠受限玻尔兹曼机构造深度置信网络,并获取预训练所需要的网络参数,包括如下步骤:S2.1.1、选取每帧的前后若干帧作为上下文信息,设置受限玻尔兹曼机的可视层和隐含层的节点数,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机;S2.1.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层,并保持隐含层节点数和可视层节点数相同,迭代训练一个伯努利-伯努利受限玻尔兹曼机;S2.1.3、按照S2.1.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层,将受限玻尔兹曼机的隐含层节点数设置为特征维数的2倍,按照S2.1.1的步骤,迭代训练伯努利-伯努利受限玻尔兹曼机,恢复隐含层节点数为1024,按照S2.1.1的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层,将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的深度置信网络;S2.2、采用有监督训练方法对预训练后的深度...
【专利技术属性】
技术研发人员:李鹏乾,李艳雄,李锦彬,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。