一种结合Transformer的轻量化中文语音识别方法技术

技术编号:34800874 阅读:108 留言:0更新日期:2022-09-03 20:07
本发明专利技术提供一种结合Transformer的轻量化中文语音识别方法,属于语音识别领域。首先使用深度可分离卷积获得音频特征信息;其次构建了双半步剩余权重前馈神经网络层:Macaron

【技术实现步骤摘要】
一种结合Transformer的轻量化中文语音识别方法


[0001]本专利技术属于语音识别领域,具体涉及一种结合Transformer的轻量化中文语音识别方法。

技术介绍

[0002]语音识别(Automatic Speech Recognition)作为一个由计算机科学和计算机语言学(computational linguistics)组成的跨学科分支,搭建起人与机器沟通的桥梁。深度学习兴起之前,语音识别模型主要是基于高斯模型和隐马尔可夫模型的混合模型(Gaussian Mixture Model

Hidden Markov Model,GMM

HMM)。然而,GMM

HMM对频谱图的修改会导致原始语音信息的丢失;深度学习技术旨在减少此类信息损失,并从原始数据中搜索更有效的音频特征表示。因此,GMM也被深度神经网络(Deep Neural Network,DNN)替代,整体框架变为DNN

HMM。然而,以HMM为代表的传统模型有着处理流程复杂和训练时间长的缺陷,阻本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合Transformer的轻量化中文语音识别方法,其特征在于,步骤如下:步骤1.提取声学特征80Fbank作为输入特征,声学特征输入部分使用2个深度可分离卷积模块作为下采样,每个深度可分离卷积模块包括一个逐通道卷积DW

conv和一个逐点卷积PW

conv,每个深度可分离卷积模块使用ReLU激活函数,声学特征80Fbank依次经过DW

conv、PW

conv后进行层归一化处理;步骤2.下采样后的声学特征经过线性层变为二维,然后利用相对位置编码提取声学特征位置信息;步骤3.声学特征位置信息传入编码器模块Encoder中,Encoder由LM结构堆叠而成,LM结构依次包括半步剩余权重的LR

FFN模块、一个多头注意力和半步剩余权重的LR

FFN模块,每个半步剩余权重的LR

FFN模块与多头注意力之间均包括残差连接、层归一化操作;每个半步剩余权重的LR

FFN模块使用低秩矩阵分解,将经多头注意力处理后的特征与之前经过步骤1

3处理的音频序列特征拼接起来,然后经过线性层还原大小提取权重更高的信息;步骤4.将文本标签输入到文本标签处理前置层,通过文本标签处理前置层将对应标...

【专利技术属性】
技术研发人员:孙俊沈逸文
申请(专利权)人:匀熵智能科技无锡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1