基于卷积自注意力变换网络的轻量级端到端语音识别方法技术

技术编号：29333195 阅读：38 留言：0更新日期：2021-07-20 17:51

本发明专利技术公开了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法，首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型，该模型对卷积自注意力变换网络进行改进，构成高效卷积自注意力变换网络；将低秩分解用于卷积自注意力变换网络中的前馈层，形成低秩前馈模块；提出多头高效自注意力MHESA，并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力；最终经过训练得到语音识别模型对语音进行识别。本发明专利技术将编码器自注意力层的计算复杂度降为线性，并将整个模型的参数量减少了约50％，而性能基本不变。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积自注意力变换网络的轻量级端到端语音识别方法
本专利技术属于模式识别
，具体涉及一种轻量级端到端语音识别方法。
技术介绍
语音识别(ASR，AutomaticSpeechRecognition)旨在将语音信号转换为文本内容，它可以形象地比喻为“机器的听觉系统”，是人机通信和交互技术的重要研究领域，也是人工智能的关键技术之一。语音识别可以应用到包括语音助手、自动驾驶、智能家居、手持移动设备等许多方面。近年来发展出的端到端语音识别技术，相比传统方法有着众多优点，如训练数据的标注简单、对语言学知识的依赖小、不需要隐马尔可夫模型中基于马尔科夫链的状态转移概率的条件独立假设，同时模型的训练和解码过程也更简单。目前主要有三种流行的端到端的方法，即连接时序分类(CTC，ConnectionistTemporalClassification)、递归神经网络变换器(RNN-T，RecurrentNeuralNetwork-Transducer)和基于注意力机制的编码器-解码器(AED，AttentionbasedEncoder-D

【技术保护点】
1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法，其特征在于，包括以下步骤：/n步骤1：构建基于卷积自注意力变换网络的轻量级端到端语音识别模型；/n步骤1-1：对卷积自注意力变换网络的编码器进行改进，构成高效卷积自注意力变换网络；/n步骤1-2：高效卷积自注意力变换网络的编码器包括两个低秩前馈模块，以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块；/n对于第i个高效卷积自注意力变换网络的输入X

【技术特征摘要】
1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法，其特征在于，包括以下步骤：
步骤1：构建基于卷积自注意力变换网络的轻量级端到端语音识别模型；
步骤1-1：对卷积自注意力变换网络的编码器进行改进，构成高效卷积自注意力变换网络；
步骤1-2：高效卷积自注意力变换网络的编码器包括两个低秩前馈模块，以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块；
对于第i个高效卷积自注意力变换网络的输入Xi，输出Yi由公式(1)到(4)得到：

X″i＝X′i+Conv(X′i)(3)

其中LFFN(.)表示低秩前馈模块，MHESA(.)表示多头高效自注意力模块，Conv(.)表示卷积模块，Layernorm(.)表示层归一化；
步骤1-3：低秩前馈模块；
将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵，用这两个矩阵替换原来的线性层权重矩阵，形成低秩前馈模块；对于低秩前馈模块的输入X，输出为：
LFFN(X)＝Dropout(Dropout(Swish(XE1D1))E2D2)(5)
其中，Dropout(.)表示线性层，Swish(.)表示Swish激活函数；E1和D1为第一个线性层权重矩阵分解的两个矩阵，E2和D2为第二个线性层权重矩阵分解的两个矩阵；...

【专利技术属性】
技术研发人员：张晓雷，李盛强，陈星，
申请(专利权)人：西北工业大学，西北工业大学深圳研究院，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人