声学模型训练方法、装置、设备以及存储介质制造方法及图纸

技术编号:37588295 阅读:18 留言:0更新日期:2023-05-18 11:08
本公开提供了一种声学模型训练方法、装置、设备以及存储介质,涉及计算机技术领域,尤其涉及音频处理、语音识别和模型训练等人工智能技术领域。具体实现方案为:通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;通过该声学模型对该第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;根据该第三特征数据对该声学模型进行训练。在本公开实施例中,通过对位置编码进行层归一化处理能够提高声学模型的泛化能力,利用训练好的声学模型可以提高音频处理的准确性。性。性。

【技术实现步骤摘要】
声学模型训练方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,尤其涉及音频处理、语音识别和模型训练等人工智能


技术介绍

[0002]声学模型是当前语音识别服务中的核心模块。在端到端语音识别方案中,可以使用声学模型的结果作为整个语音识别服务的最后结果。因此声学模型的结果基本上可以决定整个语音识别服务系统的最后效果。当前声学模型主要使用基于自注意力(self

attention)的转换器(transformer)的神经网络模型进行训练,其效果相比于其他的神经网络,有极大地提升。但是基于transformer的神经网络,不能建模语音序列的位置信息。

技术实现思路

[0003]本公开提供了一种声学模型训练方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种声学模型训练方法,包括:
[0005]通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;
[0006]通过该声学模型对该第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;
[0007]根据该第三特征数据对该声学模型进行训练。
[0008]根据本公开的另一方面,提供了一种音频处理方法,包括:
[0009]通过声学模型在待处理音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;
[0010]通过该声学模型对该第二特征数据进行处理后中加入层归一化处理后的旋转位置编码,得到第三特征数据;
[0011]通过该声学模型对该第三特征数据进行处理,得到音频处理结果。
[0012]根据本公开的另一方面,提供了一种声学模型训练装置,包括:
[0013]绝对位置编码模块,用于通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;
[0014]旋转位置编码模块,用于通过该声学模型对该第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;
[0015]训练模块,用于根据该第三特征数据对该声学模型进行训练。
[0016]根据本公开的另一方面,提供了一种音频处理装置,包括:
[0017]绝对位置编码模块,用于通过声学模型在待处理音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;
[0018]旋转位置编码模块,用于通过该声学模型对该第二特征数据进行处理后中加入层归一化处理后的旋转位置编码,得到第三特征数据;
[0019]处理模块,用于通过该声学模型对该第三特征数据进行处理,得到音频处理结果。
[0020]根据本公开的另一方面,提供了一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与该至少一个处理器通信连接的存储器;其中,
[0023]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
[0024]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
[0025]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
[0026]在本公开实施例中,通过对位置编码进行层归一化处理能够提高声学模型的泛化能力,利用训练好的声学模型可以提高音频处理的准确性。
[0027]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0028]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0029]图1是根据本公开一实施例的声学模型训练方法的流程示意图;
[0030]图2是根据本公开另一实施例的声学模型训练方法的流程示意图;
[0031]图3是根据本公开另一实施例的声学模型训练方法的流程示意图;
[0032]图4是根据本公开另一实施例的声学模型训练方法的流程示意图;
[0033]图5是根据本公开另一实施例的声学模型训练方法的流程示意图;
[0034]图6是根据本公开一实施例的音频处理方法的流程示意图;
[0035]图7是根据本公开另一实施例的音频处理方法的流程示意图;
[0036]图8是根据本公开的conformer声学模型的整体的网络结构的示意图;
[0037]图9是根据本公开的MHSA层的自注意力使用旋转位置编码的示意图;
[0038]图10是根据本公开的训练和处理流程的流程示意图;
[0039]图11是根据本公开一实施例的声学模型训练装置的结构示意图;
[0040]图12是根据本公开另一实施例的声学模型训练装置的结构示意图;
[0041]图13是根据本公开一实施例的音频处理装置的结构示意图;
[0042]图14是根据本公开另一实施例的音频处理装置的结构示意图
[0043]图15是用来实现本公开实施例的电子设备的框图。
具体实施方式
[0044]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0045]当前添加位置编码的方案之一是在输入的语音序列数据中添加绝对位置编码信
息。例如最初的自注意力(self

attention)方案中,在输入的序列中使用绝对位置编码。位置编码信息的维度和输入序列的维度相同,将位置编码和输入序列进行相加,将位置编码信息添加到序列信息中,然后送入到self

attention中进行计算。self

attention中的位置编码信息和原始序列使用相同的位置编码信息。
[0046]另一种方案是使用相对位置编码信息,主要是在计算注意力(attention)的时候,添加相对位置编码信息。对于原始序列位置编码信息,并不会额外地添加相对位置编码信息。相对位置编码信息效果一般优于绝对位置编码信息。
[0047]本公开实施例的声学模型训练方法是一种绝对位置编码和旋转位置编码相结合的位置编码方案,不仅和给原始的语音序列中添加绝对位置编码信息,在计算注意力(attention)参数时,还可以提供相对位置信息。
[0048]图1是根据本公开一实施例的声学模型训练方法的流程示意图,该方法可以包括:
[0049]S101、通过声学模型在样本音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学模型训练方法,包括:通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;通过所述声学模型对所述第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;根据所述第三特征数据对所述声学模型进行训练。2.根据权利要求1所述的方法,其中,通过所述声学模型对所述第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据,包括:通过所述声学模型对所述第二特征数据进行线性变换,得到查询信息、键信息和值信息;在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数;根据所述注意力参数和所述值信息,得到第三特征数据。3.根据权利要求2所述的方法,其中,所述声学模型包括卷积增强的转换器conformer网络,在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数,包括:利用所述conformer网络的多头自注意力MHSA在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码得到编码的查询信息和编码的键信息;将所述编码的查询信息和所述编码的键信息进行矩阵相乘,得到所述注意力参数。4.根据权利要求1至3中任一项所述的方法,其中,根据所述第三特征数据对所述声学模型进行训练,包括:通过所述声学模型对所述第三特征数据进行处理得到输出数据;将所述输出数据输入损失函数中计算所述声学模型的损失值;根据所述声学模型的损失值对所述声学模型的参数进行更新。5.根据权利要求4所述的方法,其中,根据所述声学模型的损失值对所述声学模型的参数进行更新,包括:根据所述声学模型的损失值对所述声学模型中的层归一化参数、批量归一化参数、线性变换的至少之一进行更新。6.根据权利要求1至5中任一项所述的方法,还包括:对样本音频进行分帧处理,得到音频片段;从所述音频片段中提取音频特征;计算训练集全局的倒谱均值和方差归一化CMVN数据,所述训练集中包括多个样本音频对应的音频特征;将所述训练集中的所述音频片段的音频特征进行CMVN处理。7.根据权利要求6所述的方法,其中,将所述训练集中的所述音频片段的音频特征进行CMVN处理,包括:将所述训练集中的所述音频片段的音频特征,减去CMVN数据中的均值后,除以CMVN数据中的标准差。8.根据权利要求6或7所述的方法,还包括:
将CMVN处理后的特征数据进行降采样;将降采样后的特征数据进行批量归一化处理;将批量归一化处理后的特征数据进行线性变换,得到所述第一特征数据。9.根据权利要求8所述的方法,其中,将CMVN处理后的特征数据进行降采样,包括:采用CNN网络对所述CMVN处理后的特征数据进行时域降维。10.一种音频处理方法,包括:通过声学模型在待处理音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;通过所述声学模型对所述第二特征数据进行处理后中加入层归一化处理后的旋转位置编码,得到第三特征数据;通过所述声学模型对所述第三特征数据进行处理,得到音频处理结果。11.根据权利要求10所述的方法,其中,通过所述声学模型在所述第二特征数据中加入层归一化处理后的旋转位置编码,得到第三特征数据,包括:通过所述声学模型对所述第二特征数据进行线性变换,得到查询信息、键信息和值信息;在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数;根据所述注意力参数和所述值信息,得到第三特征数据。12.根据权利要求10或11所述的方法,其中,所述声学模型包括卷积增强的转换器conformer网络,在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码后,得到注意力参数,包括:利用所述conformer网络的多头自注意力MHSA在所述查询信息和所述键信息中分别加入层归一化处理后的旋转位置编码得到编码的查询信息和编码的键信息;将所述编码的查询信息和所述编码的键信息进行矩阵相乘,得到所述注意力参数。13.根据权利要求10至12中任一项所述的方法,还包括:对所述待处理音频进行分帧处理,得到音频片段;从所述音频片段中提取音频特征;获取全局的CMVN数据;将所述待处理音频的所述音频片段的音频特征进行CMVN处理。14.根据权利要求13所述的方法,其中,将所述待处理音频的所述音频片段的音频特征进行CMVN处理,包括:将所述待处理音频的所述音频片段的音频特征,减去CMVN数据中的均值后,除以CMVN数据中的标准差。15.根据权利要求13或14所述的方法,还包括:将CMVN处理后的特征数据进行降采样;将降采样后的特征数据进行批量归一化处理;将批量归一化处理后的特征数据进行线性变换,得到所述第一特征数据。16.根据权利要求15所述的方法,其中,将CMVN处理后的特征数据进行降采样,包括:采用CNN网络对所述CMVN处理后的特征数据进行时域降维。
17.一种声学模型训练装置,包括:绝对位置编码模块,用于通过声学模型在样本音频对应的第一特征数据中加入层归一化处理后的绝对位置编码,得到第二特征数据;旋转位置编码模块,用于通过所述声学模型对所述第二特征数据进行处理后加入层归一化处理后的旋转位置编码,得到第三特征数据;训练模块,用于根据所述第三特征数据对所述声学模型进行训练。18.根据权利要求17所述的装置,...

【专利技术属性】
技术研发人员:熊新雷庞敏辉周华
申请(专利权)人:阿波罗智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1