一种语音识别模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：41290897 阅读：5 留言：0更新日期：2024-05-13 14:42

本申请公开了一种语音识别模型训练方法、装置、设备及存储介质，涉及语音识别技术领域。该方法包括：对原始训练语音进行预处理，得到处理后的训练语音，以及将原始训练文本进行编码，得到编码后的目标文本序列；将训练语音输入到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，以及将原始训练文本输入到语音识别模型中的语言模型编码器进行特征提取，得到文本嵌入特征；将训练语音、语音嵌入特征、文本嵌入特征分别输入到语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和目标文本序列，确定各解码器各自的损失函数；当各损失函数中至少一个损失函数满足损失函数要求时，得到目标语音识别模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别，尤其涉及一种语音识别模型训练方法、装置、设备及存储介质。

技术介绍

1、随着科技的不断发展，语音识别技术日趋完善，使得智能语音交互被广泛应用于各个领域。

2、近年来，为了提高语音识别技术的准确率，语音识别模型渐渐从混合架构切换到端到端架构。然而，端到端架构的语音识别模型为了提高了识别的准确率，需要引入海量训练数据进行模型的训练，在进行语音识别时，该模型推理过程中的计算量也会随着增大，导致所带来的能耗、延迟和所需的资源也越多。

3、因此，在保证语音识别模型识别的准确率时，如何降低该语音识别模型的计算量，是目前亟需解决的问题。

技术实现思路

1、本申请提供了一种语音识别模型训练方法、装置、设备及存储介质，用以保证语音识别模型识别的准确率，以及降低语音识别模型的计算量。

2、第一方面，提供一种语音识别模型训练方法，包括：

3、对获取到的原始训练语音进行预处理，得到处理后的训练语音，以及将获取到的原始训练文本进行编码，得到编码后的目标文本序列；

4、将所述训练语音输入到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，以及将所述原始训练文本输入到所述语音识别模型中的语言模型编码器进行特征提取，得到文本嵌入特征；

5、将所述训练语音、所述语音嵌入特征、所述文本嵌入特征分别输入到所述语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和所述目标文本序列，确定各解码器各自的损失函数；

6、当各损失函数中至少一个损失函数满足损失函数要求时，得到目标语音识别模型。

7、本申请实施例中，通过对原始训练语音进行预处理，可使后续的训练效果更好，将原始训练文本进行不同程度的编码，以减少后续模型训练的计算量；将训练语音输入到声学模型编码器，以及将原始训练文本输入到语言模型编码器，分别进行更细粒度的特征表达，可在训练过程中，提升语音识别模型识别的准确率；进一步地，结合多个解码器，利用损失函数对语音识别模型可进行不同程度的优化，提高了语音识别模型的整体性能，满足用户不同要求。

8、在一些实施例中，所述将所述训练语音、所述语音嵌入特征、所述文本嵌入特征分别输入到所述语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和所述目标文本序列，确定各解码器各自的损失函数，包括：

9、将所述训练语音输入到ctc解码器中进行解码，得到第一文本序列，并根据所述训练语音到所述第一文本序列的所有路径的概率值，确定所述ctc解码器的损失函数；

10、将所述语音嵌入特征输入到注意力机制解码器进行解码，得到第二文本序列，并根据所述第二文本序列和所述目标文本序列，确定所述注意力机制解码器的损失函数；

11、将所述文本嵌入特征输入到语言模型解码器进行解码，得到第三文本序列，并根据所述第三文本序列和所述目标文本序列，确定所述语言模型解码器的损失函数。

12、在一些实施例中，所述方法，还包括：

13、当获取到待识别的目标语音时，将所述目标语音输入到所述目标语音识别模型的ctc解码器中进行解码，确定所述目标语音的第一目标文本序列，并将所述目标语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，得到目标语音嵌入特征；

14、将所述目标语音嵌入特征输入到所述目标语音识别模型的注意力机制解码器中进行解码，得到第二目标文本序列；

15、将所述目标语音的历史预测文本输入到所述目标语音识别模型的语言模型编码器中进行特征提取，得到目标文本嵌入特征；

16、将所述目标文本嵌入特征输入到所述目标语音识别模型的语言模型解码器中解码，得到第三目标文本序列；

17、根据所述第一目标文本序列、所述第二目标文本序列、所述第三目标文本序列，确定所述目标语音的目标文本。

18、在一些实施例中，所述将所述目标语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，得到目标语音嵌入特征，包括：

19、将所述目标语音按照设定的语音分帧规则进行拆分，并将拆分后的m帧语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，输出得到所述m帧语音的语音嵌入特征；

20、所述将所述目标语音嵌入特征输入到所述目标语音识别模型的注意力机制解码器中进行解码，得到第二目标文本序列，包括：

21、从所述m帧语音中起始帧语音开始，计算下一帧语音与上一帧语音之间的相似度，直至到所述m帧语音中的最后一帧语音；

22、根据各相似度，确定所述m帧语音中小于相似度阈值的p帧关键语音，并将所述p帧关键语音对应的语音嵌入特征输入到训练后的注意力机制解码器中进行解码，得到所述第二目标文本序列。

23、在一些实施例中，所述声学模型编码器包括依次连接的卷积层、第一线性层以及至少一个编码层；所述将所述训练语音到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，包括：

24、将所述训练语音输入到所述卷积层中进行降采样，得到降采样后的训练语音；

25、将所述降采样后的训练语音输入到所述第一线性层进行线性变换，得到线性变换后的训练语音；

26、将所述线性变换后的训练语音输入到所述至少一个编码层，得到所述语音嵌入特征。

27、在一些实施例中，所述语言模型编码器包括n个卷积组和第二线性层；其中，一个卷积组中包括依次连接的归一化层、卷积层、激活函数，所述n为大于0的整数；所述将所述原始训练文本输入到所述语音识别模型中的语言模型编码器进行特征提取，得到文本嵌入特征，包括：

28、将所述原始训练文本输入到所述n个卷积组进行特征提取，分别得到所述原始训练文本的n个文本特征信息；

29、将所述n个文本特征信息进行累加，并将累加后的文本特征信息输入到所述第二线性层，得到所述文本嵌入特征。

30、在一些实施例中，所述将获取到的原始训练文本进行编码，得到编码后的目标文本序列，包括：

31、对所述原始训练文本中各原始文本分别进行正则化处理，得到处理后的原始文本；

32、响应于从多个编码规则中选择的目标编码规则，将所述处理后的各原始文本按照所述目标编码规则进行编码，得到编码后的目标文本序列；

33、其中，所述多个编码规则至少包括字符级别编码规则、至少一个字节对级别编码规则，每个字节对级别编码规则对应不同等级的字符合并。

34、第二方面，提供一种语音识别模型训练装置，包括：

35、处理模块，用于对获取到的原始训练语音进行预处理，得到处理后的训练语音，以及将获取到的原始训练文本进行编码，得到编码后的目标文本序列；

36、训练模块，用于将所述训练语音输入到语音识别模型中的声学模型编码器进行特征提取，得到语音嵌入特征，以及将所述原始训练文本输入到所述语音识别模型本文档来自技高网...

【技术保护点】

1.一种语音识别模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述训练语音、所述语音嵌入特征、所述文本嵌入特征分别输入到所述语音识别模型中各自的解码器，解码得到各自的文本序列，并根据各文本序列和所述目标文本序列，确定各解码器各自的损失函数，包括：

3.如权利要求2所述的方法，其特征在于，所述方法，还包括：

4.如权利要求3所述的方法，其特征在于，所述将所述目标语音输入到所述目标语音识别模型的声学模型编码器中进行特征提取，得到目标语音嵌入特征，包括：

5.如权利要求1所述的方法，其特征在于，所述声学模型编码器包括依次连接的卷积层、第一线性层以及至少一个编码层；

6.如权利要求1所述的方法，其特征在于，所述语言模型编码器包括N个卷积组和第二线性层；其中，一个卷积组中包括依次连接的归一化层、卷积层、激活函数，所述N为大于0的整数；

7.如权利要求1所述的方法，其特征在于，所述将获取到的原始训练文本进行编码，得到编码后的目标文本序列，包括：

8.一种语音识别模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法步骤。

...

【技术特征摘要】

1.一种语音识别模型训练方法，其特征在于，包括：

3.如权利要求2所述的方法，其特征在于，所述方法，还包括：

5.如权利要求1所述的方法，其特征在于，所述声学模型编码器包括依次连接的卷积层、...

【专利技术属性】
技术研发人员：吴人杰，方瑞东，林聚财，史巍，李若愚，殷俊，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人