【技术实现步骤摘要】
基于改进视觉Transformer模型的语音特征识别方法及系统
[0001]本专利技术涉及语音特征识别
,具体的是基于改进视觉Transformer模型的语音特征识别方法及系统。
技术介绍
[0002]语音不仅是人类的交流方式,同时也是人机交互中最重要的交流方式,让机器理解语音中蕴含的情感,能够使机器更好地为人类服务。基于语音的情感识别在多个领域受到越来越多的关注,比如医疗领域、交通、服务行业等。
[0003]语音情感识别的关键是提取判别性的特征,这些特征主要包括低级特征和深度特征。低级特征是使用时间和频域算法所提取的特征,例如基音、强度、梅尔频率倒谱系数(MFCC)、对数频率功率系数(LPCC)、伽马酮频率倒谱(GFCC)系数。随着深度学习的发展,低级特征逐渐被深度特征代替,尤其是具有丰富时频信息的语谱图特征,例如MFCC、梅尔谱(Mel
‑
Spectrogram)、幅度谱等。深度特征是由深度学习方法所提取的特征,比如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer网络等。尤其是视觉Transformer网络的出现,将图像均匀划分为多个补丁(patch),线性投影到一维向量,然后输入到Transformer网络中,能够实现很高的识别率。但是将语谱图划分为多个patch,直接线性投影为一维向量,没有学习到patch的局部信息帧,容易造成情感信息帧的丢失。虽然Transformer网络中的注意力机制可以提取到关键的情感信息,但在特征提取过 ...
【技术保护点】
【技术特征摘要】
1.基于改进视觉Transformer模型的语音特征识别方法,其特征在于,方法包括以下步骤:接收原始语音信号,对原始语音信号进行预处理得到语音处理信号;对语音处理信号提取声学特征,得到log
‑
Mel语谱图;将log
‑
Mel语谱图输入至预先建立的P2T模块内,得到特征向量;将特征向量输入至预先建立的Sparse Transformer网络内,得到输出结果;将输出结果导入预先建立的Softmax分类器后,得到识别结果。2.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述得到log
‑
Mel语谱图的过程:利用快速傅里叶变换对语音处理信号计算功率谱,将梅尔滤波器组应用于功率谱后,生成log
‑
Mel语谱图。3.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述P2T模块部分主干网络主要由单个卷积层、ReLU激活函数和最大池化操作组成。4.根据权利要求2所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述log
‑
Mel语谱图均匀划分为一系列patch,每个patch都经过P2T模块进行特征提取,且P2T模块公式如下:x
i
=I2P(I
P
)=MaxPool(ReLU(Conv2d(I
P
)))式中,I
P
为输入patch的大小,为Conv2d代表卷积操作,ReLU代表激活函数,MaxPool代表最大池化操作,H、W分别为语谱图的高和宽,设S=4,patch的数量为N=16,其中x
i
代表第i个patch经过卷积提取得到的特征向量,其中1≤i≤N,单个卷积层中卷积核大小均设定为7
×
7,池化层尺寸均设定为2
×2×
2。5.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述Sparse Transformer网络包括SMHA模块和MLP结构。6.根据权利要求5所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述SMHA通过将输入的特征向量划分为多个特征子空间,从而产生多组注意力权重矩阵,引入稀疏矩阵M对注意力权重矩阵进行稀疏操作。7.根据权利要求6所述的基于改进视觉Transformer模型的语音特征识别方法,...
【专利技术属性】
技术研发人员:周晓彦,王丽丽,邵勇斌,鞠醒,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。