【技术实现步骤摘要】
一种基于改进自相关特征的病理语音检测装置
本专利技术涉及病理语音检测
技术介绍
随着生活节奏的加快,人们社会活动的增多,语音障碍疾病越来越常见。通过调查显示,有超过百分之三十的人出现过嘶哑等发音障碍问题。尤其在需要经常用嗓的职业,比如教师、律师、拍卖师等,他们职业迫使他们说话声音比其他人大的多,过度用嗓导致他们的声音出现嘶哑。患有语音障碍的人在日常生活的语音交流中存在很多困难,给他们生活工作学习均带来了很多不便。因而语音障碍问题越来越受到人们的重视,已经成为了全球性健康问题。语音信号处理技术提供了一种非入侵性的方法,通过提取语音的特征,然后结合模式识别方法自动完成对语音障碍的评估,该方法能够在临床中辅助医生检测问诊者是否出现声带病变,有助于医生进一步对患者进行诊治。从语音的产生原理来看,嗓音的产生主要通过声带的振动,如果声带出现病变就会影响自身振动的频率、振幅,出现异常发音。传统的病理语音检测技术通过提取嗓音信号的美尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC ...
【技术保护点】
1.一种基于改进自相关特征的病理语音检测装置,其特征在于:包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率/n步骤一、对输入的语音信号进行预处理,即进行加窗、分帧;/n步骤二、按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数;/n步骤三、计算每一个固有模态函数分量的自相关函数,提取语音的改进的自相关特征;/n步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进的梅尔倒谱系数;/n步骤五、对步骤三提取的改进自相关特征和步骤四得 ...
【技术特征摘要】
1.一种基于改进自相关特征的病理语音检测装置,其特征在于:包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率
步骤一、对输入的语音信号进行预处理,即进行加窗、分帧;
步骤二、按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数;
步骤三、计算每一个固有模态函数分量的自相关函数,提取语音的改进的自相关特征;
步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进的梅尔倒谱系数;
步骤五、对步骤三提取的改进自相关特征和步骤四得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;
步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
2.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤一中,加窗、分帧的具体过程如下:
1.1对输入数据s(n)采用汉明窗w(n)进行加窗。
n表示语音信号的采样点序列,N表示帧长。
1.2让语音信号s(n)乘以窗函数w(n),形成加窗语音信号x(n)。
x(n)=s(n)*w(n)
1.3对加窗后的语音信号x(n)进行分帧处理,则语音信号x(n)表示为xi(t),其中i为帧序号,t为帧同步的时间序号,帧长N为256,帧移为128。
3.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤二中,经验模态分解的具体步骤如下:
经验模态分解(Empiricalmodedecomposition,EMD)是一种能够自适应的信号分解方法,能很好地处理非线性、非平稳信号,它将原语音信号分解为不同频率的固有模态函数(IntrinsicModeFunction,IMF),每个固有模态函数分量都有较强的自适应性,并且能够准确反映语音信号的局部特征以及非平稳性。
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数;
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=F′b(a)以及F″b-1(a)=F″b(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点;
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t)
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的...
【专利技术属性】
技术研发人员:薛珮芸,王颇,白静,冯晓静,
申请(专利权)人:太原理工大学,
类型:发明
国别省市:山西;14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。