【技术实现步骤摘要】
一种结合Transformer的轻量化中文语音识别方法
[0001]本专利技术属于语音识别领域,具体涉及一种结合Transformer的轻量化中文语音识别方法。
技术介绍
[0002]语音识别(Automatic Speech Recognition)作为一个由计算机科学和计算机语言学(computational linguistics)组成的跨学科分支,搭建起人与机器沟通的桥梁。深度学习兴起之前,语音识别模型主要是基于高斯模型和隐马尔可夫模型的混合模型(Gaussian Mixture Model
‑
Hidden Markov Model,GMM
‑
HMM)。然而,GMM
‑
HMM对频谱图的修改会导致原始语音信息的丢失;深度学习技术旨在减少此类信息损失,并从原始数据中搜索更有效的音频特征表示。因此,GMM也被深度神经网络(Deep Neural Network,DNN)替代,整体框架变为DNN
‑
HMM。然而,以HMM为代表的传统模型有着处理流程复杂和 ...
【技术保护点】
【技术特征摘要】
1.一种结合Transformer的轻量化中文语音识别方法,其特征在于,步骤如下:步骤1.提取声学特征80Fbank作为输入特征,声学特征输入部分使用2个深度可分离卷积模块作为下采样,每个深度可分离卷积模块包括一个逐通道卷积DW
‑
conv和一个逐点卷积PW
‑
conv,每个深度可分离卷积模块使用ReLU激活函数,声学特征80Fbank依次经过DW
‑
conv、PW
‑
conv后进行层归一化处理;步骤2.下采样后的声学特征经过线性层变为二维,然后利用相对位置编码提取声学特征位置信息;步骤3.声学特征位置信息传入编码器模块Encoder中,Encoder由LM结构堆叠而成,LM结构依次包括半步剩余权重的LR
‑
FFN模块、一个多头注意力和半步剩余权重的LR
‑
FFN模块,每个半步剩余权重的LR
‑
FFN模块与多头注意力之间均包括残差连接、层归一化操作;每个半步剩余权重的LR
‑
FFN模块使用低秩矩阵分解,将经多头注意力处理后的特征与之前经过步骤1
‑
3处理的音频序列特征拼接起来,然后经过线性层还原大小提取权重更高的信息;步骤4.将文本标签输入到文本标签处理前置层,通过文本标签处理前置层将对应标...
【专利技术属性】
技术研发人员:孙俊,沈逸文,
申请(专利权)人:匀熵智能科技无锡有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。