语音识别的方法和装置制造方法及图纸

技术编号：35241324 阅读：24 留言：0更新日期：2022-10-19 09:46

本公开的实施例公开了语音识别的方法和装置。该方法的具体实施方式包括：获取待识别的关键词；从原场景训练集中查找包含关键词的音频组成第一训练集，并获取包含关键词且非原场景训练集的音频组成第一测试集；基于第一训练集对原场景的第一语音识别模型进行第一轮增量训练，得到第二语音识别模型对第一测试集进行识别，将第一测试集中关键词被正确识别的音频加入到第一训练集，得到第二训练集和第二测试集进行第二轮增量训练，得到第三语音识别模型；将第二测试集输入所述第三语音识别模型，得到初始识别结果。该实施方式既可以大幅减少训练时间和所需数据量，又可以解决增量学习的过拟合问题以及热词解码的局限性。习的过拟合问题以及热词解码的局限性。习的过拟合问题以及热词解码的局限性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别的方法和装置

[0001]本公开的实施例涉及计算机
，具体涉及语音识别的方法和装置。

技术介绍

[0002]端到端深度神经网络已成为语音识别领域中的一种流行框架，与传统语音识别框架相比，它可以简化模型的构建和训练流程。在实际应用中，许多场合需要现有的语音识别模型既可以识别新场景下的语音输入，又能够保持原有场景的识别准确率。例如，在原有数据集上训练的语音识别模型，需要加强对新的关键词的识别能力。或者，对于新的语音识别场景的冷启动，需要在继承旧语音识别模型的识别能力的同时，基于一个小的新数据集将该模型适用于新域。由于新的关键词或新场景通常不在过去训练数据集中，因此直接在新任务上使用旧模型时，识别性能会非常不理想。为了解决这个问题，一种可行的方法是混合新旧场景数据集重新训练语音识别模型。但是，该方法可能会遇到训练数据不平衡的问题，因为新数据集通常比旧数据集小得多。同时，出于对数据安全性和隐私性的考虑，过去的数据集可能无法用于训练。另一种方法是使用新场景数据进行迁移学习，这种方法虽然可以减少时间成本，但会导致语音识别模型过拟合的问题。使用热词解码也是一种可行的方式，但是使用热词解码只能在关键词出现在解码路径中时，对该路径进行操作，从而实现关键词召回，当关键词不存在于解码路径中或关键词概率较低时，热词解码方法则无法实现关键词召回。

技术实现思路

[0003]本公开的实施例提出了语音识别的方法和装置。
[0004]第一方面，本公开的实施例提供了一种语音识别的方法，包括：获取待识别的关键词；从...

【技术保护点】

【技术特征摘要】
1.一种语音识别的方法，包括：获取待识别的关键词；从原场景训练集中查找包含所述关键词的音频组成第一训练集，并获取包含所述关键词且非原场景训练集的音频组成第一测试集；基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练，得到第二语音识别模型；使用所述第二语音识别模型对所述第一测试集进行识别，将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集，得到第二训练集和第二测试集；基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练，得到第三语音识别模型；将所述第二测试集输入所述第三语音识别模型，得到初始识别结果。2.根据权利要求1所述的方法，其中，所述方法还包括：通过热词解码器对所述初始识别结果进行调整，计算所述关键词的召回率。3.根据权利要求1所述的方法，其中，所述将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集，得到第二训练集和第二测试集，包括：通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整；根据调整后的识别结果确定出关键词被正确识别的音频；将确定出的音频加入到所述第一训练集，得到第二训练集；从所述第一训练集中删除确定出的音频，得到第二测试集。4.根据权利要求1所述的方法，其中，所述第一训练集中音频的数量大于第一阈值。5.根据权利要求4所述的方法，其中，所述方法还包括：若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值，则录制包含所述关键词的音频加入到所述第一训练集。6.根据权利要求1所述...

【专利技术属性】
技术研发人员：王润宇，资礼波，付立，
申请(专利权)人：京东科技控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人