【技术实现步骤摘要】
基于分段语谱图和双重Attention的语音情感识别方法
本专利技术涉及一种基于分段语谱图和双重Attention的语音情感识别方法,属于人工智能、情感计算和语音处理。
技术介绍
自从麻省理工学院的Picard教授提出情感计算概念来,语音情感识别研究也开始得到越来越多研究者的重视,目前,已经广泛应用在智能人机交互、车辆情感检测和航天员情感分析等领域。传统的语音情感识别方法往往采用opensmile等工具来提取韵律特征、谱特征、音质特征以及相应的统计量等语音情感特征。比如,一段语音通过opensmile工具可以方便的提取1582维语音情感特征。然后在提取的语音情感特征基础上通过主成分分析等降维方法进行降维后送入分类器进行分类。相比于图像的二维结构,opensmile工具提取的语音情感特征是一维结构。近年来,随着深度学习方法的发展,玻尔兹曼机网络、深度信念网络、卷积神经网络和循环神经网络等深度学习方法也应用于语音情感识别研究,取得了比传统方法更高的识别率。尤其是近年来,与上述基于opensmile工具的传统方法不同,少数 ...
【技术保护点】
1.一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,包括以下步骤:/n1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图;/n2)采用预训练的VGG16网络提取语谱图中深度语音情感特征;/n3)对深度语音情感特征进行空间和通道两个方向的权重学习,获得加权后的深度语音情感特征;/n4)把FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。/n
【技术特征摘要】
1.一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,包括以下步骤:
1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图;
2)采用预训练的VGG16网络提取语谱图中深度语音情感特征;
3)对深度语音情感特征进行空间和通道两个方向的权重学习,获得加权后的深度语音情感特征;
4)把FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。
2.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(1)中语谱图生成过程包括:
(1.1)切分每段原始音频信号;
(1.2)傅里叶变换每一段音频信号获得相应的语谱图;
(1.3)采用双线性插值法缩放为相同图像大小的语谱图。
3.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(2)中语音情感特征的提取根据特征图的空间位置区域进行选择,给予语音情感多的区域高权重,语音情感少的区域低权重。
4.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(3)中空间方向的权重学习过程如下:将得到的一系列特征图级联,级联后的多路特征图输入到空间Attention模块中得到空间注意力权重,然后通过Softmax对空间注意力权重进行归一化,归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘,得到带空间注意力权重的特征图。
5.根据权利要求4所...
【专利技术属性】
技术研发人员:闫静杰,宋宇康,朱康,吕方惠,卢官明,李海波,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。