基于transformer的语音识别解码加速方法技术

技术编号:29052024 阅读:161 留言:0更新日期:2021-06-26 06:17
本发明专利技术属于端到端语音识别技术领域,涉及的基于transformer的语音识别解码加速方法,包括以下步骤:S1、向transformer语音识别模型输入一条待识别音频特征序列和启动标签,语音识别模型输出初始时刻预测结果;S2、将启动标签同预测结果拼接,作为解码下一时刻历史预测结果;S3、向语音识别模型输入另一条待识别音频特征序列和历史预测结果,通过解码器模块的加速运算,加速计算解码各时刻预测结果序列;S4、将各时刻预测结果序列同该时刻预测结果做拼接,更新历史预测结果;S5、重复步骤上述,直至音识别模型预测出终止标签,此时解码完成,将最终的历史预测结果去除初始标签即为解码序列。序列。序列。

【技术实现步骤摘要】
基于transformer的语音识别解码加速方法


[0001]本专利技术属于端到端语音识别
,涉及改一种基于transformer的语音识别解码加速。

技术介绍

[0002]目前最经典的语音识别方法是基于隐马尔科夫模型(Hidden Markov Model,HMM)和神经网络(Deep Neural Network,DNN)相结合的方法。尽管这种方法很好地利用了语音信号的短时平稳特性,但仍存在声学模型、发音词典、语言模型多模型级联,模型训练目标不一致、解码空间大等缺点。而端到端语音识别的专利技术简化了整个语音识别流程,训练目标简单一致。
[0003]目前端到端语音识别模型可以主要分为三类:连续时间分类模型(Connectionist Temporal Classification,CTC),循环神经网络转换机模型(Recurrent Neural Network

Transducer,RNN

Transducer)和基于注意力机制的序列模型(Attention

base本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于transformer的语音识别解码加速方法,其特征在于,包括以下步骤:S1、向transformer语音识别模型输入待识别音频特征序列和启动标签,transformer语音识别模型输出初始时刻预测结果;S2、将启动标签同预测结果拼接,作为解码下一时刻历史预测结果;S3、向transformer语音识别模型输入所述待识别音频特征序列和历史预测结果,transformer语音识别模型通过解码器模块的加速运算,加速计算解码各时刻预测结果序列;S4、将各时刻预测结果序列同该时刻预测结果做拼接,更新历史预测结果;S5、重复步骤S1~步骤S4,直至transformer语音识别模型预测出终止标签,此时解码完成,将最终的历史预测结果去除初始标签即为解码序列。2.根据权利要求1所述的基于transformer的语音识别解码加速方法,其特征在于,所述transformer语音识别模型包括编码器模块和解码器模块。3.根据权利要求2所述的基于transformer的语音识别解码加速方法,其特征在于,输入的待识别音频特征序列包括滤波器组特征、梅尔频率倒谱系数特征。4.根据权利要求3所述的基于transformer的语音识别解码加速方法,其特征在于,所述编码器模块为使用循环神经网络、长短时记忆网络。5.根据权利要求3所述的基于transformer的语音识别解码加速方法,其特征在于,所述编码器模块包括第一自注意力模块,待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示,具体公式为:Q
B
=W
Q
XK
B
=W
k
XV
B
=W
V
X其中,X=[x1,x2,...,x
t
,...,x
T
]为待识别音频特征序列,其中x
t
代表第t帧音频特征,且X∈R
T
×
d
,T为音频序列长度,d为模型维度;W
Q
、W
k
、W
V
代表不同的维度变换矩阵;Q
B
∈R
T
×
d
、K
B
∈R
T
×
d
、V
B
∈R
T
×
d
分别代表编码器查询向量、键向量、值向量,各向量通过第一自注意力模块,即为编码器模块输出的结果H
B
∈R
T
×
d
:其中,d
k
为缩放因子。6.根据权利要求5所述的基于transfomer的语音识别解码加速方法,其特征在于,所述解码器模块包括两级注意力模块,分别为第二自注意力模块和编码器

解码器注意力模块;第二自注意力模块进行时序信息建模,具体公式为:Q
self_0
=W
Q_self
y0K
self_0
=W
k_self
y0V
self_0
=W
V_self
y0其中,y0∈R1×
d
表示初始时刻向解码器模块输入的启动标签SOS,W
Q_self
、W
k_self
、W
V_self
代表维度变换矩阵;Q
self_0
∈R
d
×
d
、K
self_0
∈R
d
×
d
、V
self_0
∈R
d
×
d
分别为初始时刻解码器模块的查询向量、键向量、值向量;第二自注意力模块的输出为H
self_0
∈R1×
d

所述编码器

解码器注意力模块根据第二自注意力模块建模的结果,确定当前时刻重点输入的音频特征序列区间,如下:Q
src_0
=W
Q_src
H
self_0
K
src_0
=W
k_src
H
B
V
src_0
=W
V_src
H
B
其中,W
Q_src
、W
k_src
、W
V_src
代表维度变换矩阵;Q
src_0...

【专利技术属性】
技术研发人员:张淳张伟彬徐向民邢晓芬
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1