一种基于语谱图提取深度空间注意特征的语音情感识别方法技术

技术编号:20871153 阅读:26 留言:0更新日期:2019-04-17 10:18
本发明专利技术公开了一种基于语谱图提取深度空间注意特征的语音情感识别方法,采用以下步骤完成:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。本发明专利技术所述方法相比于传统模型,在少量增加模型复杂度的前提下,平均识别率提升了8.43%,非同类情感区分效果明显,兼具良好的泛化性。

【技术实现步骤摘要】
一种基于语谱图提取深度空间注意特征的语音情感识别方法
本专利技术属于人工智能情感识别领域,特别涉及一种基于语谱图提取深度空间注意特征的语音情绪识别方法。
技术介绍
随着人工智能技术和机器人产业的迅速发展,人们不断对人工智能的交互化提出了更高的要求。然而,迄今大多数人工智能系统都不能识别人类的各种情感并做出相应的反应。目前,对于人机交互的研究主要集中在图像情感识别和语音情感识别(SpeechEmotionRecognition,SER)上,而图像情感识别主要针对的是人类面部表情识别,人类面部表情存在变化幅度小、种类多和速度快等问题,这导致技术上精准实现受限,同时图像情感识别对硬件要求较高很难被广泛应用或普及。而语音作为兼具语义和声音的一维时域信号,可以满足对情感识别的要求,同时硬件要求相对较小。对于语音的情感识别需要克服提取情感信息面临的困难,主要包括:多样性(说话人的多样性,环境的多样性等)和情感特征等。对于多样性的问题,深度学习的迅速发展给SER带来了更大的突破,例如:卷积神经网络(ConvolutionalNeuralNetwork,CNN),能够捕获具有全局感受域的分层模式作为强大的图像描述,同时由于其局部连接和权重共享的特点,使得其具有很好的平移不变性。将卷积神经网络的思想应用到语音情感识别的声学建模中,则可以克服语音信号本身的多样性;更深的研究发现随着层数的增加,可以建立从低层声学特征到高层抽样特征(情感、语义)的映射,继而获得数据的更有效信息。在语音情感识别情感特征的研究上,许多学者做了很多尝试,比如传统特征的选取,选取指定的特征仿真识别效果;选取经过处理后的特征(如一阶差分等)仿真识别效果,但这些序列特征存在一定的局限性,即取这样的频域特征注重频率维度忽略了时间维度的影响,相反的选取时域特征的则会忽略频率维度的影响,同时使得时频域间隐藏的潜在性质(关联性等)被忽略。随后有学者尝试将语谱图和图像处理的网络相结合,即克服了传统特征的缺点,又做到了模型和输入的互补,一定程度上对语音的情感识别起到一定的推动作用,但如何选取合适的情感相关特征一直是研究的重点。
技术实现思路
针对目前现有技术中存在的上述缺陷,本专利技术提出一种基于语谱图提取深度空间注意特征的语音情绪识别方法,通过建立新模型提高语音情感识别效率,具有良好的泛化性。为实现上述技术目的,本专利技术采用以下技术方案:一种基于语谱图提取深度空间注意特征的语音情感识别方法,包括以下步骤:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti(AttentionItti)模型提取情感相关特征(StrongEmotionFeature,SEF);步骤c:将所述语谱图送入语音情感模型提取浅层特征。步骤d:将所述SEF特征和所述浅层特征作为输入,送到约束型空间权重网络(ConstrainedSpaceWeightNetworks,CSWNet)中,生成标定权重特征;步骤e:将所述标定权重特征送入混合神经网络之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。传统的Itti视觉模型为了弥补金字塔采样过程不停的使用邻近插值,造成边缘信息丢失,从而导致显著图的分辨率降低这一问题,本专利技术通过增加由LBP算法提取纹理特征来弥补这一缺陷。同时,传统的Itti视觉模型中采用均值求和方法获得最终显著图,而研究表明,通过这种方法提取的显著区域会存在较多噪声,影响图像的清晰度和完整度,对最终情感识别有一定影响。据此,本专利技术提出情感敏感度权重方法来改进信息融合,以获得信息相对完整的显著图。对于情感信息的处理过程,通常先利用包含情感信息的局部帧,先获取主要音素位置;再获得相关帧附近的频率、频率间的相关梯度等特征,最后根据本文提出情感敏感度权重方法求显著图,即SEF特征。综上,基于两种改进方法最终形成AItti模型。CSWNet是SENet的改进模型,选取SENet作为基础结构,主要考虑到其良好的空间关联性及语音情感识别的实际情况。CSWNet目的是从全局特征中甄选出与SEF特征相近的特征,解决这个特征约束问题可以通过闸值公式来实现。CSWNet一方面继承了SENet的空间“注意力”特性;另一方面在保留全局特征又不破坏特征空间关联性前提下,能够提高SEF特征比重,从而提高情感特征的利用率,达到更好的分类效果。在整个情感识别系统中,将CSWNet模型置于两层卷积模块之后主要出于以下考虑:浅层网络提取的是低阶特征,比如:边、角、纹理、细节和边缘等特征,神经网络模型的浅层包含更多特征,也具备提取关键特征的能力。如此不断累积网络层数可以检测更加复杂的特征,即高层次特征,比如:抽象特征、语义特征等,相对而言,层数越深,提取的特征越具有代表性,鉴于CSWNet模型在AItti模型提取SEF特征的过程中选取的四种注意特征图属于初级特征类别,所以将其放在浅层网络之后,目的是为了更好的甄选出与其相近的特征。优选地,步骤a中:所述预处理生成语谱图的具体公式为:x(n)为有序长语音时域信号,n为时序采样点信号,窗长为M,w(n)为汉宁窗,函数公式如下:所述已标注指定情感标签,包括中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。优选地,步骤b具体包括以下步骤:设训练语音其中,为第i条训练语音,train表示为训练数据;先将语音转化成语谱图再经高斯滤波后输出图(1)获取特征图对于输入的语谱图第j层图像计算公式为:其中w(m,n)为下采样高斯核函数,采用的平滑滤波器,经过8次高斯滤波下采,形成9层高斯金字塔结构;第j层颜色特征图包括如下两组红绿和黄蓝通道,其中r,g,b分别表示图像的红色、绿色和蓝色通道,具体表达式如下:第j层亮度通道特征图为r,g,b的均值,具体表达式如下:第j层纹理通道特征图处理过程为,将语谱图灰度化,经过局部二值算法得到再经梯度采样获得纹理通道特征,具体表达式如下:其中(xc,yc)代表3×3邻域的中心元素,像素为ic,邻域像素值为ip,s(x)是符号函数,定义如下:第j层方向通道特征图为图像经过二维Gabor方向滤波器提取所得,具体表达式如下:(2)经中央周边差和归一化运算得到颜色、亮度、方向和纹理的显著图,分别表示为根据听觉敏感度和情感信息处理过程,本文提出听觉敏感权重调整方法来改进信息融合的方法,颜色对应着语音中的能量信息,高能量和共振峰特征恰恰是区分不同音素的关键特征,亮度和方向对应着频率和相邻频率间的相关梯度特征,结合视觉理论研究和人耳听觉敏感度,以获得信息相对完整的显著图,其中,wc、wi、wo和wt的比例为3:2:1:4。优选地,步骤c具体为:将语谱图数据放入微调的混合神经网络的前两层,提取出浅层特征图记为待标定特征,其中第i个待标定权重的特征图为步骤c中微调的混合神经网络(Fine-tunedConvolutionalNeuralNetwork,F_CRNN)的优化主要基于以下:(1)数据处理对语音进行语音增强,获取增强语音作为原始语料,其中语音增强方法采用经典的基于短时谱估计的算法,然后再对增强语音进行语谱图提取。模型采用有监督训练,有监督类算法对于非平稳噪声往往能得到更好的降噪效本文档来自技高网
...

【技术保护点】
1.一种基于语谱图提取深度空间注意特征的语音情感识别方法,其特征在于:包括以下步骤:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。

【技术特征摘要】
1.一种基于语谱图提取深度空间注意特征的语音情感识别方法,其特征在于:包括以下步骤:步骤a:对已标注指定情感标签的标准情感数据库中的语音进行预处理,生成语谱图;步骤b:将所述语谱图送入AItti模型提取SEF特征;步骤c:将所述语谱图送入语音情感模型提取浅层特征;步骤d:将所述SEF特征和所述浅层特征作为输入,送到CSWNet中,生成标定权重特征;步骤e:将所述标定权重特征送入CRNN之后的网络层,提取深度情感特征,通过Softmax分类器进行情感分类,生成最终分类结果。2.根据权利要求1所述的方法,其特征在于,步骤a中:所述预处理生成语谱图的具体公式为:x(n)为有序长语音时域信号,n为时序采样点信号,窗长为M,w(n)为汉宁窗,函数公式如下:所述已标注指定情感标签,包括中性、恐惧、厌恶、高兴、烦躁、难过和愤怒。3.根据权利要求1所述的方法,其特征在于,步骤b具体包括以下步骤:设训练语音其中,为第i条训练语音,train表示为训练数据;先将语音转化成语谱图再经高斯滤波后输出图(1)获取特征图对于输入的语谱图第j层图像计算公式为:其中w(m,n)为下采样高斯核函数,采用的平滑滤波器,经过8次高斯滤波下采,形成9层高斯金字塔结构;第j层颜色特征图包括如下两组红绿和黄蓝通道,其中r,g,b分别表示图像的红色、绿色和蓝色通道,具体表达式如下:第j层亮度通道特征图为r,g,b的均值,具体表达式如下:第j层纹...

【专利技术属性】
技术研发人员:王金华应娜朱辰都
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1