基于跨层连接注意力的语音识别网络、方法、设备及介质技术

技术编号：33126789 阅读：18 留言：0更新日期：2022-04-17 00:37

本发明专利技术适用于语音识别技术领域，提供了一种基于跨层连接注意力的语音识别网络、方法、设备及存储介质，该语音识别网络基于Transformer的编码器

全部详细技术资料下载

【技术实现步骤摘要】
基于跨层连接注意力的语音识别网络、方法、设备及介质

[0001]本专利技术属于语音识别
，尤其涉及一种基于跨层连接注意力的语音识别网络、方法、设备及存储介质。

技术介绍

[0002]随着近几年深度学习技术的快速起势，语音识别技术的发展速度达到了新的高度，尤其是端到端的语音识别技术成为了近几年研究的热点问题。端到端的语音识别系统将声学模块、语言模块、发音词典融合为一个深度神经网络结构，使得模型更为简洁并更加有利于参数的优化。端到端的语音识别系统主要分为基于CTC（Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. 2006.）的神经网络结构、RNN Transducer（Graves, Alex, Abdel
‑
rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." 2013 IEEE international conference on acoustics, speech and signal processing. ...

【技术保护点】

【技术特征摘要】
1.一种基于跨层连接注意力的语音识别网络，所述语音识别网络基于Transformer的编码器
‑
解码器结构构建，所述语音识别网络的Transformer编码器包含多个编码层，其特征在于，相邻所述编码层之间连接有跨层连接模块，所述编码层用于在生成注意图时通过所述跨层连接模块学习前一编码层的中间注意力图的信息。2.如权利要求1所述的网络，其特征在于，每个所述编码层包括注意力图生成模块，所述编码层的注意力图生成模块用于通过所述跨层连接模块学习前一编码层的中间注意力图的卷积归纳偏置，基于所述卷积归纳偏置、该编码层的中间注意力图以及预设参数，利用Softmax函数得到该编码层的注意力图，每个所述编码层的中间注意力图为该编码层的注意力图生成模块在Softmax函数之前的中间输出。3.如权利要求1所述的网络，其特征在于，所述跨层连接模块为一个卷积核大小为的二维卷积层。4.如权利要求1所述的网络，其特征在于，所述语音识别网络包括依次连接的下采样层、所述Transformer编码器、Transformer解码器和Softmax分类层，所述Transformer编码器包括12层所述编码层，相邻所述编码层之间连接有所述跨层连接模块，所述Transformer解码器包括6层解码层。5.一种基于权利要求1
‑
4任意一项所述语音识别网络的语音识别方法，其特征在...

【专利技术属性】
技术研发人员：殷绪成，张天昊，陈松路，
申请(专利权)人：珠海亿智电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人