基于改进视觉Transformer模型的语音特征识别方法及系统技术方案

技术编号：38881145 阅读：36 留言：0更新日期：2023-09-22 14:11

本发明专利技术公开了基于改进视觉Transformer模型的语音特征识别方法及系统，涉及语音特征识别技术领域，方法包括以下步骤：接收原始语音信号，对原始语音信号进行预处理得到语音处理信号；对语音处理信号提取声学特征，得到log

全部详细技术资料下载

【技术实现步骤摘要】
基于改进视觉Transformer模型的语音特征识别方法及系统

[0001]本专利技术涉及语音特征识别
，具体的是基于改进视觉Transformer模型的语音特征识别方法及系统。

技术介绍

[0002]语音不仅是人类的交流方式，同时也是人机交互中最重要的交流方式，让机器理解语音中蕴含的情感，能够使机器更好地为人类服务。基于语音的情感识别在多个领域受到越来越多的关注，比如医疗领域、交通、服务行业等。
[0003]语音情感识别的关键是提取判别性的特征，这些特征主要包括低级特征和深度特征。低级特征是使用时间和频域算法所提取的特征，例如基音、强度、梅尔频率倒谱系数(MFCC)、对数频率功率系数(LPCC)、伽马酮频率倒谱(GFCC)系数。随着深度学习的发展，低级特征逐渐被深度特征代替，尤其是具有丰富时频信息的语谱图特征，例如MFCC、梅尔谱(Mel
‑
Spectrogram)、幅度谱等。深度特征是由深度学习方法所提取的特征，比如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer网络等。尤其是视觉Transformer网络的出现，将图像均匀划分为多个补丁(patch)，线性投影到一维向量，然后输入到Transformer网络中，能够实现很高的识别率。但是将语谱图划分为多个patch，直接线性投影为一维向量，没有学习到patch的局部信息帧，容易造成情感信息帧的丢失。虽然Transformer网络中的注意力机制可以提取到关键的情感信息，但在特征提取过...

【技术保护点】

【技术特征摘要】
1.基于改进视觉Transformer模型的语音特征识别方法，其特征在于，方法包括以下步骤：接收原始语音信号，对原始语音信号进行预处理得到语音处理信号；对语音处理信号提取声学特征，得到log
‑
Mel语谱图；将log
‑
Mel语谱图输入至预先建立的P2T模块内，得到特征向量；将特征向量输入至预先建立的Sparse Transformer网络内，得到输出结果；将输出结果导入预先建立的Softmax分类器后，得到识别结果。2.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法，其特征在于，所述得到log
‑
Mel语谱图的过程：利用快速傅里叶变换对语音处理信号计算功率谱，将梅尔滤波器组应用于功率谱后，生成log
‑
Mel语谱图。3.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法，其特征在于，所述P2T模块部分主干网络主要由单个卷积层、ReLU激活函数和最大池化操作组成。4.根据权利要求2所述的基于改进视觉Transformer模型的语音特征识别方法，其特征在于，所述log
‑
Mel语谱图均匀划分为一系列patch，每个patch都经过P2T模块进行特征提取，且P2T模块公式如下：x
i
＝I2P(I
P
)＝MaxPool(ReLU(Conv2d(I
P
)))式中，I
P
为输入patch的大小，为Conv2d代表卷积操作，ReLU代表激活函数，MaxPool代表最大池化操作，H、W分别为语谱图的高和宽，设S＝4，patch的数量为N＝16，其中x
i
代表第i个patch经过卷积提取得到的特征向量，其中1≤i≤N，单个卷积层中卷积核大小均设定为7
×
7，池化层尺寸均设定为2
×2×
2。5.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法，其特征在于，所述Sparse Transformer网络包括SMHA模块和MLP结构。6.根据权利要求5所述的基于改进视觉Transformer模型的语音特征识别方法，其特征在于，所述SMHA通过将输入的特征向量划分为多个特征子空间，从而产生多组注意力权重矩阵，引入稀疏矩阵M对注意力权重矩阵进行稀疏操作。7.根据权利要求6所述的基于改进视觉Transformer模型的语音特征识别方法，...

【专利技术属性】
技术研发人员：周晓彦，王丽丽，邵勇斌，鞠醒，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人