基于跨层连接注意力的语音识别网络、方法、设备及介质技术

技术编号:33126789 阅读:18 留言:0更新日期:2022-04-17 00:37
本发明专利技术适用于语音识别技术领域,提供了一种基于跨层连接注意力的语音识别网络、方法、设备及存储介质,该语音识别网络基于Transformer的编码器

【技术实现步骤摘要】
基于跨层连接注意力的语音识别网络、方法、设备及介质


[0001]本专利技术属于语音识别
,尤其涉及一种基于跨层连接注意力的语音识别网络、方法、设备及存储介质。

技术介绍

[0002]随着近几年深度学习技术的快速起势,语音识别技术的发展速度达到了新的高度,尤其是端到端的语音识别技术成为了近几年研究的热点问题。端到端的语音识别系统将声学模块、语言模块、发音词典融合为一个深度神经网络结构,使得模型更为简洁并更加有利于参数的优化。端到端的语音识别系统主要分为基于CTC(Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. 2006.)的神经网络结构、RNN Transducer(Graves, Alex, Abdel

rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." 2013 IEEE international conference on acoustics, speech and signal processing. Ieee, 2013.)结构和基于注意力机制的编解码器(Chan, William, et al. "Listen, attend and spell." arXiv preprint arXiv:1508.01211 (2015).)结构。Transformer(Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.)是一种基于自注意力机制的编解码器结构,最早在机器翻译领域被提出,近些年在语音识别领域也取得了突出的效果。Transformer结构有效的关键因素在于多头自注意力机制,多头自注意力会计算生成注意图来表示输入序列中每个特征之间的相关依赖性强度。因此,注意力图的有效性在很大程度上决定了Transformer的效果。然而近期很多相关研究表明,传统Transformer的注意力图不足以表示更精确的上下文关系。为了更好的捕获上下文关系,Conformer(Gulati, Anmol, et al. "Conformer: Convolution

augmented transformer for speech recognition." arXiv preprint arXiv:2005.08100 (2020).)在自注意力层后面增加了卷积神经网络层以增强网络对局部信息的学习,然而这种方式并没有直接对注意力图进行优化,并且额外增加的卷积神经网络层带来了参数量的增加。Xu等人的方法(Xu, Menglong, Shengqiang Li, and Xiao

Lei Zhang. "Transformer

based end

to

end speech recognition with local dense synthesizer attention." ICASSP 2021

2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.)则直接通过两层前馈神经网络直接生成注意力图,但是这种通过固定参数生成注意力图的方式不如由注意力机制自适应生成的方式鲁棒性更强。

技术实现思路

[0003]本专利技术的目的在于提供一种基于跨层连接注意力的语音识别网络、方法、设备及存储介质,旨在解决由于现有技术中基于Transformer的语音识别系统存在的注意力图不
够有效、不能精准地表示输入特征上下文关系的问题。
[0004]一方面,本专利技术提供一种基于跨层连接注意力的语音识别网络,所述语音识别网络基于Transformer的编码器

解码器结构构建,所述语音识别网络的Transformer编码器包含多个编码层,相邻所述编码层之间连接有跨层连接模块,所述编码层用于在生成注意图时通过所述跨层连接模块学习前一编码层的中间注意力图的信息。
[0005]具体地,每个所述编码层包括注意力图生成模块,所述编码层的注意力图生成模块用于通过所述跨层连接模块学习前一编码层的中间注意力图的卷积归纳偏置,基于所述卷积归纳偏置、该编码层的中间注意力图以及预设参数,利用Softmax函数得到该编码层的注意力图,每个所述编码层的中间注意力图为该编码层的注意力图生成模块在Softmax函数之前的中间输出。
[0006]优选地,所述跨层连接模块为一个卷积核大小为的二维卷积层。
[0007]优选地,所述语音识别网络包括依次连接的下采样层、所述Transformer编码器、Transformer解码器和Softmax分类层,所述Transformer编码器包括12层所述编码层,相邻所述编码层之间连接有所述跨层连接模块,所述Transformer解码器包括6层解码层。
[0008]另一方面,本专利技术提供了一种基于以上所述语音识别网络的语音识别方法,所述方法包括:对待识别语音进行预处理,得到所述待识别语音的语音特征;将所述语音特征输入到训练好的所述语音识别网络,得到语音识别结果。
[0009]优选地,所述预处理包括倒谱均值方差归一化操作,所述语音特征包括80维的Fbank特征和3维音调特征,所述语音识别网络中的Transformer解码器采用束宽为5的集束搜索算法进行解码,以得到所述语音识别结果。
[0010]具体地,所述方法还包括:获取训练集;对所述训练集中的语音进行预处理,得到每个语音的语音特征;基于所述每个语音的语音特征,对所述语音识别网络进行训练,得到训练好的所述语音识别网络。
[0011]优选地,训练所述述语音识别网络使用的损失函数为交叉熵损失函数,对所述语音识别网络进行训练的步骤之前,包括:对所述语音特征进行增强处理,以根据增强后的语音特征对所述语音识别网络进行训练,所述增强处理包括速度扰动和SpecAugment处理。
[0012]另一方面,本专利技术还提供了一种语音识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
[0013]另一方面,本专利技术还提供了一种计算机可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨层连接注意力的语音识别网络,所述语音识别网络基于Transformer的编码器

解码器结构构建,所述语音识别网络的Transformer编码器包含多个编码层,其特征在于,相邻所述编码层之间连接有跨层连接模块,所述编码层用于在生成注意图时通过所述跨层连接模块学习前一编码层的中间注意力图的信息。2.如权利要求1所述的网络,其特征在于,每个所述编码层包括注意力图生成模块,所述编码层的注意力图生成模块用于通过所述跨层连接模块学习前一编码层的中间注意力图的卷积归纳偏置,基于所述卷积归纳偏置、该编码层的中间注意力图以及预设参数,利用Softmax函数得到该编码层的注意力图,每个所述编码层的中间注意力图为该编码层的注意力图生成模块在Softmax函数之前的中间输出。3.如权利要求1所述的网络,其特征在于,所述跨层连接模块为一个卷积核大小为的二维卷积层。4.如权利要求1所述的网络,其特征在于,所述语音识别网络包括依次连接的下采样层、所述Transformer编码器、Transformer解码器和Softmax分类层,所述Transformer编码器包括12层所述编码层,相邻所述编码层之间连接有所述跨层连接模块,所述Transformer解码器包括6层解码层。5.一种基于权利要求1

4任意一项所述语音识别网络的语音识别方法,其特征在...

【专利技术属性】
技术研发人员:殷绪成张天昊陈松路
申请(专利权)人:珠海亿智电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1