模型训练方法、装置及电子设备制造方法及图纸

技术编号：27689312 阅读：26 留言：0更新日期：2021-03-17 04:24

本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括：获取语音样本，利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型，得到经训练得到的第一语音识别模型；将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型，输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签，将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型，输出每条上述语音样本的标签预测概率，计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值，当上述交叉熵损失值满足预设条件时，得到经训练得到的第二语音识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置及电子设备
本公开涉及计算机
/语音识别
，更具体地，涉及一种模型训练方法、装置及电子设备。
技术介绍
自动语音识别(Automaticspeechrecognition，ASR)是指将人类的讲话内容自动转换为文字的技术。目前语音识别技术已经应用在智能系统的多个方面，例如个人助理和会议转写等。随着深度神经网络技术的快速发展和广泛应用，大词汇量的连续语音识别效果在近年来取得了显著的提升。其中，基于注意力机制的编码-解码器模型(Attentionbasedencoder-decodermodel)由于其端到端(End-to-end)的特性，极大的简化了语音识别模型在训练和应用上的复杂度，因而成为目前的语音识别的主流方法。基于注意力机制的编码-解码器模型使用深层神经网络来构建编码器(Encoder)和解码器(Decoder)，并配以注意力机制(Attention)来连接两个部分。由于其不对语音的时序独立性做任何假设，且不需要发音词典和复杂的训练流程，故而充分的训练数据成为保证这种模型取得良好识别性能的必要条件。语音识别领域需求的增长，使得越来越多的语音识别系统需要在资源受限的条件下快速的搭建起来，例如，应用于小语种的语音识别系统。然而，这种情况下开发者通常缺乏充分的带标签的训练数据，而人工的数据标签通常需要付出高昂的成本，相比之下，无标签的语音数据却可以通过互联网和移动终端快速大量地收集。因此，在有标签数据受限的条件下，充分利用无标签语音数据来辅助模型的训练，从而提升语音识别系统的性能...

【技术保护点】
1.一种模型训练方法，包括：/n获取语音样本，所述语音样本包括有标签语音样本和无标签语音样本；/n利用所述有标签语音样本和所述有标签语音样本的样本标签训练第一初始语音识别模型，得到经训练得到的第一语音识别模型；/n将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型，输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签，其中，所述第一伪标签为最优解码序列，所述第二伪标签为所述最优解码序列对应的条件后验分布序列；/n将每条所述语音样本和每条所述语音样本对应的第一伪标签输入第二初始语音识别模型，输出每条所述语音样本的标签预测概率，以及/n计算每条所述语音样本的标签预测概率和所述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值，当所述交叉熵损失值满足预设条件时，得到经训练得到的第二语音识别模型。/n

【技术特征摘要】
1.一种模型训练方法，包括：
获取语音样本，所述语音样本包括有标签语音样本和无标签语音样本；
利用所述有标签语音样本和所述有标签语音样本的样本标签训练第一初始语音识别模型，得到经训练得到的第一语音识别模型；
将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型，输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签，其中，所述第一伪标签为最优解码序列，所述第二伪标签为所述最优解码序列对应的条件后验分布序列；
将每条所述语音样本和每条所述语音样本对应的第一伪标签输入第二初始语音识别模型，输出每条所述语音样本的标签预测概率，以及
计算每条所述语音样本的标签预测概率和所述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值，当所述交叉熵损失值满足预设条件时，得到经训练得到的第二语音识别模型。

2.根据权利要求1所述的模型训练方法，其中，将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型，输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签，包括：
所述第一语音识别模型利用线束搜索算法输出所述语音样本中每条语音样本对应的第一伪标签；
所述第一语音识别模型利用前缀解码线束输出所述语音样本中每条语音样本对应的第二伪标签，其中，所述前缀解码线束由所述线束搜索算法获得。

3.根据权利要求1所述的模型训练方法，其中，将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型，输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签，包括：
所述第一语音识别模型利用线束搜索算法输出所述第一伪标签；
将前缀解码线束输入语言模型，输出所述语音样本中每条语音样本对应的第一初始伪标签；将所述前缀解码线束输入所述第一语音识别模型，输出所述语音样本中每条语音样本对应的第二初始伪标签；将所述第一初始伪标签和所述第二初始伪标签进行加权计算得到所述第二伪标签，其中，所述前缀解码线束由所述线束搜索算法获得。

4.根据权利要求1所述的模型训练方法，其中，将每条所述语音样本输入第二初始语音识别模型前，通过频谱增强对所述语音样本进行干扰。

5.根据权利要求1所述的模型训练方法，其中，将每条所述语音样本输入第二初始语音识别模型前，通过频谱增强和随机丢弃机制对所述语音样本进行干扰。

6.根据权利要求l所述的模型训练方法，其中，利用所述有标签语音样本和所述有标签语音样本的样本标签...

【专利技术属性】
技术研发人员：张自强，戴礼荣，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人