当前位置: 首页 > 专利查询>四川大学专利>正文

一种腭裂语音喉塞音自动识别算法及装置制造方法及图纸

技术编号:12215853 阅读:134 留言:0更新日期:2015-10-21 17:14
本发明专利技术公开了一种腭裂语音喉塞音自动识别算法及装置,涉及语音分析、识别技术领域,旨在提供一种喉塞音自动识别方法及装置,采用计算机自动识别腭裂语音喉塞音,为患者和语音师提供有效的客观辅助诊断,有助于腭裂语音评估与语音治疗的广泛普及。本发明专利技术技术要点:步骤1:采集待测音节语音信号;步骤2:对所述音节语音信号进行声韵母切分,保留声母语音信号;步骤3:提取所述声母语音信号的特征值;步骤4:将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。

【技术实现步骤摘要】

本专利技术涉及语音分析、识别
,尤其是一种腭裂语音喉塞音自动识别算法 及装置。
技术介绍
唇腭裂是最常见的先天性颅颁面畸形,我国拥有世界上最多的唇腭裂人群。与唇 裂不同的是,腭裂最大的影响不仅是面部形态上的缺陷,而且由于不同程度的上腭部骨组 织和软组织的缺损和畸形,造成患者语音语言、吮吸、进食等功能障碍,严重影响人口生存 质量。通常,在一期腭裂修复手术后,仍有大量患者存在不同程度的语音障碍。对腭裂语音 障碍的治疗是腭裂序列治疗模式中的重要环节。 目前,对腭裂语音的评估由专业语音师的主观判听实现,这种方法易受语音师的 临床经验及主观状态等因素影响。 腭裂语音的临床表现主要包括共鸣障碍与构音障碍。其中,共鸣障碍的主要临床 表现为高鼻音、鼻漏气等;构音障碍的主要临床表现为辅音省略、代偿、弱化,替代等。其中, 代偿性构音异常是腭裂患者最常见的错误构音方法之一,其发音原理是腭裂患者发辅音 时,由于口腔气流经闭合不全的腭咽口分流至鼻腔,出现鼻漏气和口内压力不足,导致他们 为了在气流之前利用咽腔里的气流发音,从而学会以一种方式代偿性发音。喉塞音是临床 最常见的代偿性构音形式,对语音清晰度影响最大,可以发生在全部的压力性辅音,听觉感 知上,患者音质"硬、短",模糊不清。而长期的影响会造成声带增厚、小结,声撕、沙哑。由于 代偿性构音与腭咽功能紧密相关,其直接映射腭咽功能的程度,因此对其准确评估具有重 要临床意义。
技术实现思路
本专利技术所要解决的技术问题是:针对上述存在的问题,提供一种喉塞音自动识别 方法及装置,采用计算机自动识别腭裂语音喉塞音,为患者和语音师提供有效的客观辅助 诊断,有助于腭裂语音评估与语音治疗的广泛普及。 本专利技术提供的腭裂语音喉塞音自动识别算法,包括: 步骤1 :采集待测音节语音信号; 步骤2 :对所述音节语音信号进行声韵母切分,保留声母语音信号; 步骤3 :提取所述声母语音信号的特征值; 步骤4 :将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断 所述音节语音信号中是否存在喉塞音。 所述步骤2进一步包括:步骤21 :对音节语音信号进行加窗分帧得到若干语音帧Xi,i取1、2、3…M ; 步骤22 :计算每个语音帧的短时能量Ei及短时过零率Z i; 步骤23 :计算相邻两帧的能量差e(i)和过零率差z(i) :e(i) = Ei+1-Ei,i = 1,2, z(i) = Zi+i-Z" i = 1,2, ; 步骤24:将每个能量差e(i)与阈值T1进行比较,将每个过零率差z(i)与阈值T2 比较;当满足e(i)彡T1,同时z(i)彡T2时,设此时i = I ;则取语音帧Xi,i取1、2、3… I为音节语音信号的声母语音信号。 所述步骤3提取的声母语音信号特征值包括以下特征值中的一种或多种:频谱能 量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征 值、小波包变换与信息熵特征值;其中, 提取声母语音信号的频谱能量加强段特征值:计算每帧声母语音帧的第一到第五 频谱能量加强段特征值;计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母 语音信号的第一频谱能量加强段特征值,以此类推,计算得到声母语音信号的第二到第五 频谱能量加强段特征值; 提取声母语音信号的MFCC声学特征值:计算每帧声母语音帧的MFCC声学特征值, 其中MFCC系数值取12,得到每帧声母语音帧的12个MFCC特征值;将全部声母语音信号帧 的第一 MFCC特征值的平均值作为声母语音信号的第一 MFCC特征值,以此类推,计算得到声 母语音信号的第二到第十二MFCC特征值; 提取声母语音信号的临界频段短时功率谱特征值:对每帧声母语音帧进行短时傅 里叶变换,得到每帧声母语音帧的短时功率谱;按照临界频段划分规则将每帧声母语音帧 的短时功率谱划分为20个临界频段;将全部声母语音帧的第一临界频段的功率叠加在一 起得到声母语音信号的第一临界频段短时功率谱特征值,以此类推得到第二到第二十临界 频段短时功率谱特征值; 提取声母语音信号的小波变换与信息熵特征值:对每帧声母语音帧进行三层小波 变换,对三层小波分解后的信号进行重构得到4个重构后的信号,计算每个重构后的信号 的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音 信号的第一小波变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第四小 波变换与信息熵特征值; 提取声母语音信号的小波包变换与信息熵特征值:对每帧声母语音帧进行三层小 波包变换,对三层小波包分解后的信号进行重构得到8个重构后的信号,计算每个重构后 的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声 母语音信号的第一小波包变换与信息熵特征值,以此类推,计算得到声母语音信号的第二 到第六小波变换与信息熵特征值。 步骤4进一步包括: 选取已知包含喉塞音的音节语音信号若干组成真训练样本集,选取已知不包含喉 塞音的音节语音信号若干组成假训练样本集; 提取两个训练样本集的每个样本的频谱能量加强段特征值、MFCC声学特征值、临 界频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值; 获取步骤3得到的待测音节语音信号的声母语音信号特征值; 计算该待测音节语音信号的声母语音信号特征值与各个训练样本的距离:; 选取离待测音节语音信号的声母语音信号特征值距离最短的若干训练样本,其中 属于真训练样本集的训练样本最多时则认为所述待测音节语音信号中含有喉塞音;其中:Xl,1取1~5,为待测音节语音信号的第一到第五频谱能量加强段特征值;Xl,1取6~17,为待测音节语音信号的第一到第十二MFCC声学特征值;Xl,1取18~37,为待测音节语音信号的第一到第二十临界频段短时功率谱特征 值;Xl,1取38~41,为待测音节语音信号的第一到第四小波变换与信息熵特征值;Xl,1取42~49,为待测音节语音信号的第一到第八小波包变换与信息熵特征值;yi,1取1~5,为训练样本的第一到第五频谱能量加强段特征值;yi,1取6~17,为训练样本的第一到第十二MFCC声学特征值;yi,1取18~37,为训练样本的第一到第二十临界频段短时功率谱特征值;yi,1取38~41,为训练样本的第一到第四小波变换与信息熵特征值;yi,1取42~49,为训练样本的第一到第八小波包变换与信息熵特征值; a、b、c、d、e 为权值。 优选地,所述权值的取值获取方法包括: 选取已知包含喉塞音的音节语音信号若干组成真样本空间,选取已知不包含喉塞 音的音节语音信号若干组成假样本空间; 提取两个样本空间的每个样本的频谱能量加强段特征值、MFCC声学特征值、临界 频段短时功率谱特征值、小波变换与信息熵特征值及小波包变换与信息熵特征值; 以两个样本空间的样本的频谱能量加强段特征值为KNN识别模型的样本;此时的 KNN识别模型的识别正确率为a ; 以两个样本空间的样本的MFCC声学特征值为KNN识别模型的样本;此时的KNN识 别模型的识别正确率为b ; 以两个样本空间的样本的临界频段短时功率谱特征值为KNN识别模型的样本;此 时的KNN识别模型的识别正确率为c ;本文档来自技高网...

【技术保护点】
一种腭裂语音喉塞音自动识别算法,其特征在于,包括:步骤1:采集待测音节语音信号;步骤2:对所述音节语音信号进行声韵母切分,保留声母语音信号;步骤3:提取所述声母语音信号的特征值;步骤4:将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。

【技术特征摘要】

【专利技术属性】
技术研发人员:何凌谭洁尹恒刘奇郭春丽严苗
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1