语音识别的方法和装置制造方法及图纸

技术编号:35241324 阅读:24 留言:0更新日期:2022-10-19 09:46
本公开的实施例公开了语音识别的方法和装置。该方法的具体实施方式包括:获取待识别的关键词;从原场景训练集中查找包含关键词的音频组成第一训练集,并获取包含关键词且非原场景训练集的音频组成第一测试集;基于第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型对第一测试集进行识别,将第一测试集中关键词被正确识别的音频加入到第一训练集,得到第二训练集和第二测试集进行第二轮增量训练,得到第三语音识别模型;将第二测试集输入所述第三语音识别模型,得到初始识别结果。该实施方式既可以大幅减少训练时间和所需数据量,又可以解决增量学习的过拟合问题以及热词解码的局限性。习的过拟合问题以及热词解码的局限性。习的过拟合问题以及热词解码的局限性。

【技术实现步骤摘要】
语音识别的方法和装置


[0001]本公开的实施例涉及计算机
,具体涉及语音识别的方法和装置。

技术介绍

[0002]端到端深度神经网络已成为语音识别领域中的一种流行框架,与传统语音识别框架相比,它可以简化模型的构建和训练流程。在实际应用中,许多场合需要现有的语音识别模型既可以识别新场景下的语音输入,又能够保持原有场景的识别准确率。例如,在原有数据集上训练的语音识别模型,需要加强对新的关键词的识别能力。或者,对于新的语音识别场景的冷启动,需要在继承旧语音识别模型的识别能力的同时,基于一个小的新数据集将该模型适用于新域。由于新的关键词或新场景通常不在过去训练数据集中,因此直接在新任务上使用旧模型时,识别性能会非常不理想。为了解决这个问题,一种可行的方法是混合新旧场景数据集重新训练语音识别模型。但是,该方法可能会遇到训练数据不平衡的问题,因为新数据集通常比旧数据集小得多。同时,出于对数据安全性和隐私性的考虑,过去的数据集可能无法用于训练。另一种方法是使用新场景数据进行迁移学习,这种方法虽然可以减少时间成本,但会导致语音识别模型过拟合的问题。使用热词解码也是一种可行的方式,但是使用热词解码只能在关键词出现在解码路径中时,对该路径进行操作,从而实现关键词召回,当关键词不存在于解码路径中或关键词概率较低时,热词解码方法则无法实现关键词召回。

技术实现思路

[0003]本公开的实施例提出了语音识别的方法和装置。
[0004]第一方面,本公开的实施例提供了一种语音识别的方法,包括:获取待识别的关键词;从原场景训练集中查找包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。
[0005]在一些实施例中,所述方法还包括:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。
[0006]在一些实施例中,所述将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集,包括:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。
[0007]在一些实施例中,所述第一训练集中音频的数量大于第一阈值。
[0008]在一些实施例中,所述方法还包括:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。
[0009]在一些实施例中,所述第一测试集中音频的数量大于第二阈值。
[0010]在一些实施例中,所述方法还包括:若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。
[0011]第二方面,本公开的实施例提供了一种语音识别的装置,包括:获取单元,被配置成获取待识别的关键词;组成单元,被配置成从原场景训练集中查找包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;第一训练单元,被配置成基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;识别单元,被配置成使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;第二训练单元,被配置成基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;输出单元,被配置成将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。
[0012]在一些实施例中,所述装置还包括计算单元,被配置成:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。
[0013]在一些实施例中,所述识别单元进一步被配置成:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。
[0014]在一些实施例中,所述第一训练集中音频的数量大于第一阈值。
[0015]在一些实施例中,所述装置还包括第一录音单元,被配置成:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。
[0016]在一些实施例中,所述第一测试集中音频的数量大于第二阈值。
[0017]在一些实施例中,所述装置还包括第二录音单元,被配置成:若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。
[0018]第三方面,本公开的实施例提供了一种语音识别的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的方法。
[0019]第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如第一方面中任一项所述的方法。
[0020]本公开的实施例提供的语音识别的方法和装置,通过使用带有关键词的少量训练数据进行第一轮增量训练。完成第一轮训练后,使用第一轮训练所得模型,将测试集中正确召回的数据加入训练集进行第二轮增量训练。既可以大幅减少训练时间和所需数据量,又可以解决增量学习的过拟合问题以及热词解码的局限性。
附图说明
[0021]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
[0022]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0023]图2是根据本公开的语音识别的方法的一个实施例的流程图;
[0024]图3是根据本公开的语音识别的方法的一个应用场景的示意图;
[0025]图4是根据本公开的语音识别的方法的又一个实施例的流程图;
[0026]图5是根据本公开的语音识别的方法的热词解码流程图;
[0027]图6是根据本公开的语音识别的装置的一个实施例的结构示意图;
[0028]图7是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0029]下面结合附图和实施例对本公开作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别的方法,包括:获取待识别的关键词;从原场景训练集中查找包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。2.根据权利要求1所述的方法,其中,所述方法还包括:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。3.根据权利要求1所述的方法,其中,所述将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集,包括:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。4.根据权利要求1所述的方法,其中,所述第一训练集中音频的数量大于第一阈值。5.根据权利要求4所述的方法,其中,所述方法还包括:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:王润宇资礼波付立
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1