【技术实现步骤摘要】
声学模型训练方法、装置、设备以及存储介质
[0001]本公开涉及计算机
,尤其涉及音频处理、语音识别和模型训练等人工智能
技术介绍
[0002]声学模型是当前语音识别服务中的核心模块。在端到端语音识别方案中,可以使用声学模型的结果作为整个语音识别服务的最后结果。因此声学模型的结果基本上可以决定整个语音识别服务系统的最后效果。当前声学模型主要使用基于自注意力(self
‑
attention)的转换器(transformer)的神经网络模型进行训练,其效果相比于其他的神经网络,有极大地提升。但是基于transformer的神经网络,不能建模语音序列的位置信息。
技术实现思路
[0003]本公开提供了一种声学模型训练方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种声学模型训练方法,包括:
[0005]通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;
[0006]通过该声学模型对该第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;
[0007]根据该第三特征数据对该声学模型进行训练。
[0008]根据本公开的另一方面,提供了一种音频处理方法,包括:
[0009]通过声学模型在待处理音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;
[0010]通过该声学模型对该第二特征数据进行处理后中加入层归一化处理 ...
【技术保护点】
【技术特征摘要】
1.一种声学模型训练方法,包括:通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;通过所述声学模型对所述第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;根据所述第三特征数据对所述声学模型进行训练。2.根据权利要求1所述的方法,其中,通过所述声学模型对所述第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据,包括:通过所述声学模型对所述第二特征数据进行线性变换,得到查询信息、键信息和值信息;在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数;根据所述注意力参数和所述值信息,得到第三特征数据。3.根据权利要求2所述的方法,其中,所述声学模型包括卷积增强的转换器conformer网络,在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数,包括:利用所述conformer网络的多头自注意力MHSA在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码得到编码的查询信息和编码的键信息;将所述编码的查询信息和所述编码的键信息进行矩阵相乘,得到所述注意力参数。4.根据权利要求1至3中任一项所述的方法,其中,根据所述第三特征数据对所述声学模型进行训练,包括:通过所述声学模型对所述第三特征数据进行处理得到输出数据;将所述输出数据输入损失函数中计算所述声学模型的损失值;根据所述声学模型的损失值对所述声学模型的参数进行更新。5.根据权利要求4所述的方法,其中,根据所述声学模型的损失值对所述声学模型的参数进行更新,包括:根据所述声学模型的损失值对所述声学模型中的层归一化参数、批量归一化参数、线性变换的至少之一进行更新。6.根据权利要求1至5中任一项所述的方法,还包括:对样本音频进行分帧处理,得到音频片段;从所述音频片段中提取音频特征;计算训练集全局的倒谱均值和方差归一化CMVN数据,所述训练集中包括多个样本音频对应的音频特征;将所述训练集中的所述音频片段的音频特征进行CMVN处理。7.根据权利要求6所述的方法,其中,将所述训练集中的所述音频片段的音频特征进行CMVN处理,包括:将所述训练集中的所述音频片段的音频特征,减去CMVN数据中的均值后,除以CMVN数据中的标准差。8.根据权利要求6或7所述的方法,还包括:
将CMVN处理后的特征数据进行降采样;将降采样后的特征数据进行批量归一化处理;将批量归一化处理后的特征数据进行线性变换,得到所述第一特征数据。9.根据权利要求8所述的方法,其中,将CMVN处理后的特征数据进行降采样,包括:采用CNN网络对所述CMVN处理后的特征数据进行时域降维。10.一种音频处理方法,包括:通过声学模型在待处理音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;通过所述声学模型对所述第二特征数据进行处理后中加入层归一化处理后的旋转位置编码,得到第三特征数据;通过所述声学模型对所述第三特征数据进行处理,得到音频处理结果。11.根据权利要求10所述的方法,其中,通过所述声学模型在所述第二特征数据中加入层归一化处理后的旋转位置编码,得到第三特征数据,包括:通过所述声学模型对所述第二特征数据进行线性变换,得到查询信息、键信息和值信息;在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数;根据所述注意力参数和所述值信息,得到第三特征数据。12.根据权利要求10或11所述的方法,其中,所述声学模型包括卷积增强的转换器conformer网络,在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数,包括:利用所述conformer网络的多头自注意力MHSA在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码得到编码的查询信息和编码的键信息;将所述编码的查询信息和所述编码的键信息进行矩阵相乘,得到所述注意力参数。13.根据权利要求10至12中任一项所述的方法,还包括:对所述待处理音频进行分帧处理,得到音频片段;从所述音频片段中提取音频特征;获取全局的CMVN数据;将所述待处理音频的所述音频片段的音频特征进行CMVN处理。14.根据权利要求13所述的方法,其中,将所述待处理音频的所述音频片段的音频特征进行CMVN处理,包括:将所述待处理音频的所述音频片段的音频特征,减去CMVN数据中的均值后,除以CMVN数据中的标准差。15.根据权利要求13或14所述的方法,还包括:将CMVN处理后的特征数据进行降采样;将降采样后的特征数据进行批量归一化处理;将批量归一化处理后的特征数据进行线性变换,得到所述第一特征数据。16.根据权利要求15所述的方法,其中,将CMVN处理后的特征数据进行降采样,包括:采用CNN网络对所述CMVN处理后的特征数据进行时域降维。
17.一种声学模型训练装置,包括:绝对位置编码模块,用于通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;旋转位置编码模块,用于通过所述声学模型对所述第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;训练模块,用于根据所述第三特征数据对所述声学模型进行训练。18.根据权利要求17所述的装置,...
【专利技术属性】
技术研发人员:熊新雷,庞敏辉,周华,
申请(专利权)人:阿波罗智联北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。