【技术实现步骤摘要】
基于卷积自注意力变换网络的轻量级端到端语音识别方法
本专利技术属于模式识别
,具体涉及一种轻量级端到端语音识别方法。
技术介绍
语音识别(ASR,AutomaticSpeechRecognition)旨在将语音信号转换为文本内容,它可以形象地比喻为“机器的听觉系统”,是人机通信和交互技术的重要研究领域,也是人工智能的关键技术之一。语音识别可以应用到包括语音助手、自动驾驶、智能家居、手持移动设备等许多方面。近年来发展出的端到端语音识别技术,相比传统方法有着众多优点,如训练数据的标注简单、对语言学知识的依赖小、不需要隐马尔可夫模型中基于马尔科夫链的状态转移概率的条件独立假设,同时模型的训练和解码过程也更简单。目前主要有三种流行的端到端的方法,即连接时序分类(CTC,ConnectionistTemporalClassification)、递归神经网络变换器(RNN-T,RecurrentNeuralNetwork-Transducer)和基于注意力机制的编码器-解码器(AED,AttentionbasedEncoder-D
【技术保护点】
1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,包括以下步骤:/n步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;/n步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;/n步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;/n对于第i个高效卷积自注意力变换网络的输入X
【技术特征摘要】
1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,包括以下步骤:
步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;
步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;
步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;
对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:
X″i=X′i+Conv(X′i)(3)
其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layernorm(.)表示层归一化;
步骤1-3:低秩前馈模块;
将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵,用这两个矩阵替换原来的线性层权重矩阵,形成低秩前馈模块;对于低秩前馈模块的输入X,输出为:
LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2)(5)
其中,Dropout(.)表示线性层,Swish(.)表示Swish激活函数;E1和D1为第一个线性层权重矩阵分解的两个矩阵,E2和D2为第二个线性层权重矩阵分解的两个矩阵;...
【专利技术属性】
技术研发人员:张晓雷,李盛强,陈星,
申请(专利权)人:西北工业大学,西北工业大学深圳研究院,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。