一种基于PCNN语谱图特征融合的情感语音识别系统技术方案

技术编号:17563570 阅读:59 留言:0更新日期:2018-03-28 13:37
本发明专利技术涉及语音识别技术领域。一种基于PCNN语谱图特征融合的情感语音识别系统,对于语音信号进行加窗分帧,然后做离散傅里叶变换,画出语音信号的语谱图;构建PCNN模型,通过脉冲耦合神经网络处理语谱图;将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量

An emotion speech recognition system based on the feature fusion of PCNN language spectrum

The invention relates to the field of speech recognition technology. A Spectrogram Based on PCNN feature fusion emotional speech recognition system for voice signal framing, then do the discrete Fourier transform, draw the speech signal spectrogram; constructing PCNN model, through the pulse coupled neural network processing spectrogram; PCNN map and 5 scale 8 direction Gabor wavelet convolution 40, Gabor amplitude spectrum and amplitude characteristics of Gabor extraction; extraction of uniform LBP characteristics of each Gabor spectrum, histogram cascade 40 Gabor spectrum diagram of the feature vector

【技术实现步骤摘要】
一种基于PCNN语谱图特征融合的情感语音识别系统
本专利技术涉及语音识别

技术介绍
随着信息技术的高速发展,人机交互受到越来越多的关注,情感语音识别作为人机交互的关键技术,成为该领域的研究重点。情感语音识别是计算机通过对人类语音情感信息的提取分析,从而对人类情感状态做出判断的语音识别技术,在商业、医疗、教育等众多领域有着广泛的应用。当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征。韵律特征通过时长、基频、能量等特征对语音情感进行区分,其情感识别能力已得到情感识别邻域的广泛认可。基于谱的相关特征通过声道形状变化和发生运动之间的相关性体现,对频谱能量在各个频谱区间的分布有着明显的影响。声音质量通过共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等特征对语音情感做出有效分析。这些特征中,语音信号时域特性和频域特性起到了重要的作用,但是针对语音信号时域和频域两者相关性结合的研究相对较少。语谱图通过对时域和频域结合,用横轴代表时间,纵轴代表频率,将图像的像素点用频率点表示,采用图像特征分析相邻频率点之间的关系,是一种语音能量时频分布的可视化表达方式,本文档来自技高网...

【技术保护点】
一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:按照如下的步骤进行步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,获得语音信号的语谱图;步骤二、构建PCNN模型,通过脉冲耦合神经网络处理语谱图;步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量QLBP;步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩,然后级联,构成一个Gabor频谱图的特征向量,将40幅Gabor频谱图的Hu矩特征向量级联构成一幅...

【技术特征摘要】
1.一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:按照如下的步骤进行步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,获得语音信号的语谱图;步骤二、构建PCNN模型,通过脉冲耦合神经网络处理语谱图;步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量QLBP;步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩,然后级联,构成一个Gabor频谱图的特征向量,将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu;步骤六、对特征向量QLBP和QHu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′LBP和Q′Hu,利用公式融合Q′LBP和Q′Hu,得到融合特征Q;步骤七、将融合特征Q带入SVM模型,得到识别准确率。2.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤一的详细过程为对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):x(n)=s(n)*w(n)对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;对分帧后的语音信号xn(t)进行离散傅里叶变换:其中,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,jj为虚数,时间t处频谱能量密度函数P(n,k)为:P(n,k)=|X(n,k)|2=(X(n,k))×(conjj(X(n,k)))将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图。3.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤二具体为构建PCNN模型,用每一个神经元依次对应语谱图中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入Fij(h)和连接输入Lij(h)两部分:Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+SijLij(h)=exp(-αL)Lij(h-1)+VLΣwij,mlYml(h-1)其中,h为神经元点火时间序号,Sij是输入刺激信号,取语谱图的图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij:Uij(h)=Fij(h)[1+βLij(h)]其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij:将语谱图输入脉冲耦合神经网络,点火一次后得到处理过的PCNN图谱。4.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤三的详细步骤为:设定Gabor滤波器的频率和方向,可以得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析,Gabor核函数如下所示:其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;将PCNN图谱与5尺度8方向Gabor小波卷积:Gu,v(x,y)=I(x,y)*gu,v(x,y)其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;通过计算Gab...

【专利技术属性】
技术研发人员:白静郭倩岩闫建政
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1