一种特征增强的构音障碍语音处理方法技术

技术编号:36207962 阅读:19 留言:0更新日期:2023-01-04 12:03
本发明专利技术属于语音信号处理技术领域,具体涉及一种特征增强的构音障碍语音处理方法,包括以下步骤:S1、对原始信号进行快速傅里叶变换,计算得到其频谱信号;S2、对频谱信号进行经验模态分解,得到各个本征模式分解分量;S3、计算前m个本征模式分解分量的功率谱密度,得到功率谱特征向量;S4、对前m个本征模式分解分量分别进行快速沃尔什

【技术实现步骤摘要】
一种特征增强的构音障碍语音处理方法


[0001]本专利技术属于语音信号处理
,具体涉及一种特征增强的构音障碍语音处理方法。

技术介绍

[0002]构音障碍是由中枢神经系统损伤引起的发音和运动障碍,这种言语功能障碍会影响个体声道和声带发声,从而影响患者语言表达能力和言语可懂度,这将会给患者的日常交流沟通造成非常严重的影响。随着信号处理技术发展,对病理语音的研究常使用一些语音信号的处理方法;同时,由于机器学习、深度学习的快速发展,医学领域的一些问题可和信号处理相关技术实现技术交叉融合,进行医工结合解决实际问题。
[0003]值得注意的是,特征在机器学习领域发挥着重要作用,因为它们代表了需要研究的对象,寻找更具有表征性、能够更好地代表被试特征信息的特征具有非常重大的意义,这将很大程度上提升模型分类识别性能。对于病理语音的研究,常常使用一些特征来表征病患信息,常见特征有基频、抖动、微光、谐波噪声比(HNR)、梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等等。目前,国内外有很多研究者致力于这一领域,Joshy和Rajan在MFCCs特征上使用DNN、CNN和LSTM等深度学习算法来检测TORGO和UA Speech数据集的构音障碍严重程度,并提出一种基于门控神经网络(GNN)的新方法用来改善声学和音调特征的集成情况;同时研究了GNN的贝叶斯估计,进一步提高了其鲁棒性。Juliette Millet和Neil Zeghidour使用TORGO数据集的原始波形的特征来检测构音障碍的严重程度。Abner Hernandez等人使用节奏指标特征来检测QoLT Korean和TORGO数据集上的构音障碍。N.P.Narendra和Paavo Alku在TORGO和UA Speech数据集上使用原始语音信号和声门流波形来检测构音障碍的严重程度。Siddhartha Prakash将数据输入到基于卷积神经网络的模型中,并通过softmax分类器训练模型输出。Krishnagurbelli和Anil Kumar Vuppala提出使用一组听觉感知算子来增强构音障碍语音的感知增强单频倒谱系数(PESFCC)的特征。Kadi使用一组用LDA/SVM选择的韵律特征来检测构音障碍的严重程度,利用Nemours数据库取得93%的准确率。Ina Kodrasi提出了频谱时间稀疏性特征,使用基尼指数作为一个鲁棒特征来识别构音障碍语音,其结果为83.3%。Nida SaeJong和PornchaiPhukpattaranont使用六个特征的降维来检测构音障碍语音。N.P.Narendra和Paavo Alku利用从TORGO和UA Speech数据集中提取的声学和声门特征来检测构音障碍语言。刘山松的研究利用视觉特征来识别构音障碍。虽然有很多特征表征病理语音,但是由于构音障碍患者的发音与正常人明显不同,并且声道和声带包含非常丰富的信息。许多常用特征只能反映单一信息。例如,Mel频率倒谱系数(MFCC),线性预测系数(LPC)和共振峰主要是声道信息的表现形式;而基频反映声带信息。因此,有必要进一步探索构音障碍语音的具有代表性的特征参数,以更有效地表征构音障碍语音,以提高模型的识别率。

技术实现思路

[0004]本专利技术克服现有技术中忽略病理语音本身不规则性、非平稳性导致的识别率不高的问题,提供了一种特征增强的构音障碍语音处理方法,以提高构音障碍语音的识别率。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:一种特征增强的构音障碍语音处理方法,包括以下步骤:
[0006]S1、对原始信号进行快速傅里叶变换,计算得到其频谱信号;
[0007]S2、对频谱信号进行经验模态分解,得到各个本征模式分解分量;
[0008]S3、计算前m个本征模式分解分量的功率谱密度,得到维度为m的功率谱特征向量;
[0009]S4、对前m个本征模式分解分量分别进行快速沃尔什

哈达玛变换得到沃尔什变换系数,然后提取各个沃尔什变换系数的统计学特征,得到维度为m
×
a的统计学特征向量;其中m和a为整数,a表示统计学特征的数量;
[0010]S5、将所述功率谱特征向量和统计学特征向量组合,得到维度为m
×
(a+1)的组合特征向量。
[0011]所述步骤S4中,统计学特征包括均值、标准差、最大值、最小值、方差。
[0012]所述步骤S3中,功率谱密度的计算方法为:
[0013]S301、将对应的本征模式分解分量进行分段处理得到多个分段信号;
[0014]S302、对各个分段信号分别进行加窗预处理和快速傅里叶变换,得到对应的周期图;
[0015]S303、根据各个分段信号对应的周期图计算功率谱。
[0016]所述周期图的计算公式为:
[0017][0018]其中,S
k
表示第k个分段信号,k=1,2,...,T,T表示分段信号的总数,P
k
(f)表示第k个分段信号的周期图,ω[n]为窗函数,f表示信号的频率,n表示当前样本数据点,n=0,1,2,

,M,M表示分段信号S
k
中的样本数量;
[0019]所述功率谱密度的计算公式为:
[0020][0021]其中,P
welch
表示功率谱密度。
[0022]所述沃尔什变换系数的计算公式为:
[0023][0024]其中,FWT(u)表示沃尔什变换系数,IMF
i
(f)表示第i个本征模式分解分量,b
t
(u)为u的二进制数的第t+1位的值,b
(j
‑1‑
t)
(u)表示第j

t位的值,u表示当前第u个数据点,N表示采样点数,j表示本征模式分解分量的数量,t为整数。
[0025]所述m的取值为5。
[0026]所述步骤S1中,频谱信号的计算公式为:
[0027][0028][0029]其中,s(t)表示原始信号,t表示时间,f表示频率,L表示原始信号s(t)的长度。
[0030]本专利技术与现有技术相比具有以下有益效果:
[0031]本专利技术提供了一种特征增强的构音障碍语音处理方法,基于经验模态分解(EMD)和快速傅里叶变换(FFT)对语音进行处理(称为FEMD),充分保留病理语音中的不规则、非平稳信息,以便为后续所提特征保留更为充分的病理信息。其中,对语音进行经验模态分解获得其固有模态函数(IMFs),因为固有模式函数是语音信号的基本成分。其次考虑其病理语音的不规则形和非平稳性,对其局部特征进行自适应分析可以更好地刻画语音信号的特征;同时,IMFi(t)包含所有与发声密切相关的共振峰频率信息、声带和声道信息。因此与正常人相比,通过FEMD处理后获得的语音信息和频率可以更好地代表构音障碍语音中的信息,尤其是患者携带的病理信息,利用其功率谱密度形成的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征增强的构音障碍语音处理方法,其特征在于,包括以下步骤:S1、对原始信号进行快速傅里叶变换,计算得到其频谱信号;S2、对频谱信号进行经验模态分解,得到各个本征模式分解分量;S3、计算前m个本征模式分解分量的功率谱密度,得到维度为m的功率谱特征向量;S4、对前m个本征模式分解分量分别进行快速沃尔什

哈达玛变换得到沃尔什变换系数,然后提取各个沃尔什变换系数的统计学特征,得到维度为m
×
a的统计学特征向量;其中m和a为整数,a表示统计学特征的数量;S5、将所述功率谱特征向量和统计学特征向量组合,得到维度为m
×
(a+1)的组合特征向量。2.根据权利要求1所述的一种特征增强的构音障碍语音处理方法,其特征在于,所述步骤S4中,统计学特征包括均值、标准差、最大值、最小值、方差。3.根据权利要求1所述的一种特征增强的构音障碍语音处理方法,其特征在于,所述步骤S3中,功率谱密度的计算方法为:S301、将对应的本征模式分解分量进行分段处理得到多个分段信号;S302、对各个分段信号分别进行加窗预处理和快速傅里叶变换,得到对应的周期图;S303、根据各个分段信号对应的周期图计算功率谱。4.根据权利要求3所述的一种特征增强的构音障碍语音处理方法,其特征在于,所述周期图的计算公式为:其中,S
k
表示第...

【专利技术属性】
技术研发人员:段淑斐朱婷张雪英卡米拉孙颖贾海蓉
申请(专利权)人:太原理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1