模型训练方法、装置及电子设备制造方法及图纸

技术编号:27689312 阅读:26 留言:0更新日期:2021-03-17 04:24
本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括:获取语音样本,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。

【技术实现步骤摘要】
模型训练方法、装置及电子设备
本公开涉及计算机
/语音识别
,更具体地,涉及一种模型训练方法、装置及电子设备。
技术介绍
自动语音识别(Automaticspeechrecognition,ASR)是指将人类的讲话内容自动转换为文字的技术。目前语音识别技术已经应用在智能系统的多个方面,例如个人助理和会议转写等。随着深度神经网络技术的快速发展和广泛应用,大词汇量的连续语音识别效果在近年来取得了显著的提升。其中,基于注意力机制的编码-解码器模型(Attentionbasedencoder-decodermodel)由于其端到端(End-to-end)的特性,极大的简化了语音识别模型在训练和应用上的复杂度,因而成为目前的语音识别的主流方法。基于注意力机制的编码-解码器模型使用深层神经网络来构建编码器(Encoder)和解码器(Decoder),并配以注意力机制(Attention)来连接两个部分。由于其不对语音的时序独立性做任何假设,且不需要发音词典和复杂的训练流程,故而充分的训练数据成为保证这种模型取得良好识别性能的必要条件。语音识别领域需求的增长,使得越来越多的语音识别系统需要在资源受限的条件下快速的搭建起来,例如,应用于小语种的语音识别系统。然而,这种情况下开发者通常缺乏充分的带标签的训练数据,而人工的数据标签通常需要付出高昂的成本,相比之下,无标签的语音数据却可以通过互联网和移动终端快速大量地收集。因此,在有标签数据受限的条件下,充分利用无标签语音数据来辅助模型的训练,从而提升语音识别系统的性能,即半监督语音识别(Semi-supervisedspeechrecognition)逐渐成为语音识别领域广泛关注的课题。在基于注意力机制的编码-解码器模型的框架下,现有的半监督语音识别方法可以分为两大类。第一类方法涉及以重建语音信号的方式来使用无标签的语音数据,通常包含一个额外的模块实现这种功能,例如语音合成(Text-to-speech,TTS)模块。在这类方法中,无标签数据先经过语音识别的部分网络来得到隐层表示,再通过附加的模块来映射回语音信号,以此来使语音识别网络学习到更好的表达能力。在一定程度上促进识别性能的同时,这类方法也面临着辅助任务不匹配(重建损失函数与识别损失函数不匹配)、梯度回传不畅(识别网络的输出使离散符号,梯度难以从此回传至识别网络内部)的问题和挑战。另一类方法不引入任何附加的模块和损失函数,而是通过给无标签数据样本添加伪标签的方式,把它们看作是有标签数据来共同训练,因此被称作伪标签(Pseudo-labeling)法。这类方法通常需要先使用一个已有的语音识别模型来为无标签数据生成伪标签,然后再将所有数据和它们的标签一起训练一个新的模型。已有的模型通常是在资源受限的条件下使用有标签数据训练得到的,称之为教师模型(Teachermodel),新模型对应地称为学生模型(Studentmodel),因此这类方法又被成为教师-学生(Teacher-studentlearning)方法。一个典型的情况是教师和学生公用同一种模型结构,在这种情景下该方法又被称为自训练(Self-training)法。在伪标签法中,如何在教师模型性能受限的条件下提升伪标签的质量,为学生模型提供更好的监督信息,成为最终促进语音识别性能的关键。综上所述,在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:1)单纯地使用教师模型的预测字符序列作为无监督数据的标签,不足以提供有效的监督信息,或者说这种监督信息是存在严重偏差(偏向教师模型)的;2)伪标签提供的监督信息的有效性是相对的,即在不同的任务难度下,同样的伪标签提供的监督信息的有效性是不同的。
技术实现思路
有鉴于此,本公开提供了一种模型训练方法、装置及电子设备。本公开的实施例一个方面提供了一种模型训练方法,包括:获取语音样本,上述语音样本包括有标签语音样本和无标签语音样本;利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入上述第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,其中,上述第一伪标签为最优解码序列,上述第二伪标签为上述最优解码序列对应的条件后验分布序列;将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,以及计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。根据本公开的实施例,将上述有标签语音样本和上述无标签语音样本分别输入上述第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,包括:上述第一语音识别模型利用线束搜索算法输出上述语音样本中每条语音样本对应的第一伪标签;上述第一语音识别模型利用前缀解码线束输出上述语音样本中每条语音样本对应的第二伪标签,其中,上述前缀解码线束由上述线束搜索算法获得。根据本公开的实施例,将上述有标签语音样本和上述无标签语音样本分别输入上述第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,包括:上述第一语音识别模型利用线束搜索算法输出上述第一伪标签;将前缀解码线束输入语言模型,输出上述语音样本中每条语音样本对应的第一初始伪标签;将上述前缀解码线束输入上述第一语音识别模型,输出上述语音样本中每条语音样本对应的第二初始伪标签;将上述第一初始伪标签和上述第二初始伪标签进行加权计算得到上述第二伪标签,其中,上述前缀解码线束由上述线束搜索算法获得。根据本公开的实施例,将每条上述语音样本输入第二初始语音识别模型前,通过频谱增强对上述语音样本进行干扰。根据本公开的实施例,将每条上述语音样本输入第二初始语音识别模型前,通过频谱增强和随机丢弃机制对上述语音样本进行干扰。根据本公开的实施例,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型,包括:将上述有标签语音样本和上述有标签语音样本的样本标签输入上述第一初始语音识别模型,输出上述有标签语音样本的标签预测概率,以及计算上述有标签语音样本的标签预测概率和上述有标签语音样本的样本标签之间的交叉熵损失值,当上述交叉熵损失值达到上述预设条件时,得到经训练得到的第一语音识别模型。根据本公开的实施例,将上述有标签语音样本和上述有标签语音样本的样本标签输入上述第一初始语音识别模型,输出上述有标签语音样本的标签预测概率,包括:利用编码器将上述有标签语音样本映射为第一上下文信息的隐层表示;将上述第一上下文信息的隐层表示通过注意力机制函数进行加权计算获得第二上下文信息的隐层表示;利用上述解码器对上述第二上下文信息的隐层表示进行解码,输入所述第二上下文信息和所述有标签语音样本的上一步的标签,获得当前步的输出状态,并本文档来自技高网
...

【技术保护点】
1.一种模型训练方法,包括:/n获取语音样本,所述语音样本包括有标签语音样本和无标签语音样本;/n利用所述有标签语音样本和所述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;/n将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型,输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签,其中,所述第一伪标签为最优解码序列,所述第二伪标签为所述最优解码序列对应的条件后验分布序列;/n将每条所述语音样本和每条所述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条所述语音样本的标签预测概率,以及/n计算每条所述语音样本的标签预测概率和所述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当所述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。/n

【技术特征摘要】
1.一种模型训练方法,包括:
获取语音样本,所述语音样本包括有标签语音样本和无标签语音样本;
利用所述有标签语音样本和所述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;
将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型,输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签,其中,所述第一伪标签为最优解码序列,所述第二伪标签为所述最优解码序列对应的条件后验分布序列;
将每条所述语音样本和每条所述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条所述语音样本的标签预测概率,以及
计算每条所述语音样本的标签预测概率和所述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当所述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。


2.根据权利要求1所述的模型训练方法,其中,将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型,输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签,包括:
所述第一语音识别模型利用线束搜索算法输出所述语音样本中每条语音样本对应的第一伪标签;
所述第一语音识别模型利用前缀解码线束输出所述语音样本中每条语音样本对应的第二伪标签,其中,所述前缀解码线束由所述线束搜索算法获得。


3.根据权利要求1所述的模型训练方法,其中,将所述有标签语音样本和所述无标签语音样本分别输入所述第一语音识别模型,输出所述语音样本中每条语音样本对应的第一伪标签和第二伪标签,包括:
所述第一语音识别模型利用线束搜索算法输出所述第一伪标签;
将前缀解码线束输入语言模型,输出所述语音样本中每条语音样本对应的第一初始伪标签;将所述前缀解码线束输入所述第一语音识别模型,输出所述语音样本中每条语音样本对应的第二初始伪标签;将所述第一初始伪标签和所述第二初始伪标签进行加权计算得到所述第二伪标签,其中,所述前缀解码线束由所述线束搜索算法获得。


4.根据权利要求1所述的模型训练方法,其中,将每条所述语音样本输入第二初始语音识别模型前,通过频谱增强对所述语音样本进行干扰。


5.根据权利要求1所述的模型训练方法,其中,将每条所述语音样本输入第二初始语音识别模型前,通过频谱增强和随机丢弃机制对所述语音样本进行干扰。


6.根据权利要求l所述的模型训练方法,其中,利用所述有标签语音样本和所述有标签语音样本的样本标签...

【专利技术属性】
技术研发人员:张自强戴礼荣
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1