基于改进视觉Transformer模型的语音特征识别方法及系统技术方案

技术编号:38881145 阅读:36 留言:0更新日期:2023-09-22 14:11
本发明专利技术公开了基于改进视觉Transformer模型的语音特征识别方法及系统,涉及语音特征识别技术领域,方法包括以下步骤:接收原始语音信号,对原始语音信号进行预处理得到语音处理信号;对语音处理信号提取声学特征,得到log

【技术实现步骤摘要】
基于改进视觉Transformer模型的语音特征识别方法及系统


[0001]本专利技术涉及语音特征识别
,具体的是基于改进视觉Transformer模型的语音特征识别方法及系统。

技术介绍

[0002]语音不仅是人类的交流方式,同时也是人机交互中最重要的交流方式,让机器理解语音中蕴含的情感,能够使机器更好地为人类服务。基于语音的情感识别在多个领域受到越来越多的关注,比如医疗领域、交通、服务行业等。
[0003]语音情感识别的关键是提取判别性的特征,这些特征主要包括低级特征和深度特征。低级特征是使用时间和频域算法所提取的特征,例如基音、强度、梅尔频率倒谱系数(MFCC)、对数频率功率系数(LPCC)、伽马酮频率倒谱(GFCC)系数。随着深度学习的发展,低级特征逐渐被深度特征代替,尤其是具有丰富时频信息的语谱图特征,例如MFCC、梅尔谱(Mel

Spectrogram)、幅度谱等。深度特征是由深度学习方法所提取的特征,比如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer网络等。尤其是视觉Transformer网络的出现,将图像均匀划分为多个补丁(patch),线性投影到一维向量,然后输入到Transformer网络中,能够实现很高的识别率。但是将语谱图划分为多个patch,直接线性投影为一维向量,没有学习到patch的局部信息帧,容易造成情感信息帧的丢失。虽然Transformer网络中的注意力机制可以提取到关键的情感信息,但在特征提取过程中同时也会引入冗余信息,且每个patch之间并不是所有关联性都比较强,只存在某几个相邻的patch与之关联性比较强,因此在进行自注意力(self

attention)操作时会产生不必要的计算,导致关联矩阵复杂度高。

技术实现思路

[0004]为解决上述
技术介绍
中提到的不足,本专利技术的目的在于提供基于改进视觉Transformer模型的语音特征识别方法及系统。
[0005]本专利技术的目的可以通过以下技术方案实现:基于改进视觉Transformer模型的语音特征识别方法,方法包括以下步骤:
[0006]接收原始语音信号,对原始语音信号进行预处理得到语音处理信号;
[0007]对语音处理信号提取声学特征,得到log

Mel语谱图;
[0008]将log

Mel语谱图输入至预先建立的P2T模块内,得到特征向量;
[0009]将特征向量输入至预先建立的SparseTransformer网络内,得到输出结果;
[0010]将输出结果导入预先建立的Softmax分类器后,得到识别结果。
[0011]优选地,所述得到log

Mel语谱图的过程:
[0012]利用快速傅里叶变换对语音处理信号计算功率谱,将梅尔滤波器组应用于功率谱后,生成log

Mel语谱图。
[0013]优选地,所述P2T模块部分主干网络主要由单个卷积层、ReLU激活函数和最大池化
操作组成。
[0014]优选地,所述log

Mel语谱图均匀划分为一系列patch,每个patch都经过P2T模块进行特征提取,且P2T模块公式如下:
[0015]x
i
=I2P(I
P
)=MaxPool(ReLU(Conv2d(I
P
)))
[0016]式中,I
P
为输入patch的大小,为Conv2d代表卷积操作,ReLU代表激活函数,MaxPool代表最大池化操作,H、W分别为语谱图的高和宽,设S=4,patch的数量为N=16,其中x
i
代表第i个patch经过卷积提取得到的特征向量,其中1≤i≤N,单个卷积层中卷积核大小均设定为7
×
7,池化层尺寸均设定为2
×2×
2。
[0017]优选地,所述SparseTransformer网络包括SMHA模块和MLP结构。
[0018]优选地,所述SMHA通过将输入的特征向量划分为多个特征子空间,从而产生多组注意力权重矩阵,引入稀疏矩阵M对注意力权重矩阵进行稀疏操作。
[0019]优选地,所述稀疏操作如下:
[0020]与注意力权重矩阵进行逐个元素比较,应用一个值对需要稀疏位置的数值进行覆盖,当计算注意力取Softmax激活函数时,将序列相似性矩阵进行归一化概率分布,M中被标记的位置被设为0,然后通过归一化相似矩阵与V进行点积运算,计算公式如下:
[0021][0022]式中Q、K、V分别代表查询向量、键向量、值向量,Q和K的点积代表上下文信息对关键信息的影响程度,d
k
代表K的维度其中M
i,j
=1表示第i个patch注意到第j个patch,M
i,j
=0第i个patch不能注意到第j个patch。
[0023]优选地,所述MLP将每组注意力的信息进行筛选整合,公式如下:
[0024]H
h
=Attention(QW
hQ
,KW
hK
,VW
hV
)
[0025]SMHA=Concat(H1,H2,

,H
n
)W
o
[0026]式中H
h
是每个头的注意力得分,h=1,2,

,n,n代表注意力头数,这里n取16;W
hQ
、W
hK
、W
hV
分别代表Q、K、V第h次训练映射的权重矩阵;参数矩阵W
o
用于将拼接后的数据进一步融合。
[0027]优选地,所述得到输出结果的过程如下:
[0028]将SMHA的输出送入MLP结构,先经过全连接层线性变换,再通过ReLU激活函数非线性变换,最后线性变换得到输出结果,公式如下:
[0029]FFN(Y)=W2[ReLU(YW1+b1)+b2][0030]式中Y代表MLP的输入特征向量,W1、W2是两个线性变换层的参数矩阵,b1、b2代表偏置向量,然后将输出结果导入Softmax分类器后得到最终识别结果。
[0031]第二方面,为了达到上述目的,本专利技术公开了基于改进视觉Transformer模型的语音特征识别系统,包括:
[0032]数据处理模块:用于接收原始语音信号,对原始语音信号进行预处理得到语音处理信号;
[0033]提取模块:用于对语音处理信号提取声学特征,得到log

Mel语谱图;
[0034]第一输入模块:用于将log

Mel语谱图输入至预先建立的P2T模块内,得到特征向量;
[0035]第二输入模块:用于将特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进视觉Transformer模型的语音特征识别方法,其特征在于,方法包括以下步骤:接收原始语音信号,对原始语音信号进行预处理得到语音处理信号;对语音处理信号提取声学特征,得到log

Mel语谱图;将log

Mel语谱图输入至预先建立的P2T模块内,得到特征向量;将特征向量输入至预先建立的Sparse Transformer网络内,得到输出结果;将输出结果导入预先建立的Softmax分类器后,得到识别结果。2.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述得到log

Mel语谱图的过程:利用快速傅里叶变换对语音处理信号计算功率谱,将梅尔滤波器组应用于功率谱后,生成log

Mel语谱图。3.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述P2T模块部分主干网络主要由单个卷积层、ReLU激活函数和最大池化操作组成。4.根据权利要求2所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述log

Mel语谱图均匀划分为一系列patch,每个patch都经过P2T模块进行特征提取,且P2T模块公式如下:x
i
=I2P(I
P
)=MaxPool(ReLU(Conv2d(I
P
)))式中,I
P
为输入patch的大小,为Conv2d代表卷积操作,ReLU代表激活函数,MaxPool代表最大池化操作,H、W分别为语谱图的高和宽,设S=4,patch的数量为N=16,其中x
i
代表第i个patch经过卷积提取得到的特征向量,其中1≤i≤N,单个卷积层中卷积核大小均设定为7
×
7,池化层尺寸均设定为2
×2×
2。5.根据权利要求1所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述Sparse Transformer网络包括SMHA模块和MLP结构。6.根据权利要求5所述的基于改进视觉Transformer模型的语音特征识别方法,其特征在于,所述SMHA通过将输入的特征向量划分为多个特征子空间,从而产生多组注意力权重矩阵,引入稀疏矩阵M对注意力权重矩阵进行稀疏操作。7.根据权利要求6所述的基于改进视觉Transformer模型的语音特征识别方法,...

【专利技术属性】
技术研发人员:周晓彦王丽丽邵勇斌鞠醒
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1