一种结合Transformer的轻量化中文语音识别方法技术

技术编号：34800874 阅读：108 留言：0更新日期：2022-09-03 20:07

本发明专利技术提供一种结合Transformer的轻量化中文语音识别方法，属于语音识别领域。首先使用深度可分离卷积获得音频特征信息；其次构建了双半步剩余权重前馈神经网络层：Macaron

全部详细技术资料下载

【技术实现步骤摘要】
一种结合Transformer的轻量化中文语音识别方法

[0001]本专利技术属于语音识别领域，具体涉及一种结合Transformer的轻量化中文语音识别方法。

技术介绍

[0002]语音识别(Automatic Speech Recognition)作为一个由计算机科学和计算机语言学(computational linguistics)组成的跨学科分支，搭建起人与机器沟通的桥梁。深度学习兴起之前，语音识别模型主要是基于高斯模型和隐马尔可夫模型的混合模型(Gaussian Mixture Model
‑
Hidden Markov Model,GMM
‑
HMM)。然而，GMM
‑
HMM对频谱图的修改会导致原始语音信息的丢失；深度学习技术旨在减少此类信息损失，并从原始数据中搜索更有效的音频特征表示。因此，GMM也被深度神经网络(Deep Neural Network,DNN)替代，整体框架变为DNN
‑
HMM。然而，以HMM为代表的传统模型有着处理流程复杂和...

【技术保护点】

【技术特征摘要】
1.一种结合Transformer的轻量化中文语音识别方法，其特征在于，步骤如下：步骤1.提取声学特征80Fbank作为输入特征，声学特征输入部分使用2个深度可分离卷积模块作为下采样，每个深度可分离卷积模块包括一个逐通道卷积DW
‑
conv和一个逐点卷积PW
‑
conv，每个深度可分离卷积模块使用ReLU激活函数，声学特征80Fbank依次经过DW
‑
conv、PW
‑
conv后进行层归一化处理；步骤2.下采样后的声学特征经过线性层变为二维，然后利用相对位置编码提取声学特征位置信息；步骤3.声学特征位置信息传入编码器模块Encoder中，Encoder由LM结构堆叠而成，LM结构依次包括半步剩余权重的LR
‑
FFN模块、一个多头注意力和半步剩余权重的LR
‑
FFN模块，每个半步剩余权重的LR
‑
FFN模块与多头注意力之间均包括残差连接、层归一化操作；每个半步剩余权重的LR
‑
FFN模块使用低秩矩阵分解，将经多头注意力处理后的特征与之前经过步骤1
‑
3处理的音频序列特征拼接起来，然后经过线性层还原大小提取权重更高的信息；步骤4.将文本标签输入到文本标签处理前置层，通过文本标签处理前置层将对应标...

【专利技术属性】
技术研发人员：孙俊，沈逸文，
申请(专利权)人：匀熵智能科技无锡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人