语音识别模型自训练方法及系统技术方案

技术编号：27747178 阅读：17 留言：0更新日期：2021-03-19 13:42

本发明专利技术实施例提供一种语音识别模型自训练的方法。该方法包括：利用合成音频数据和当前上传的用户音频数据，对语音识别模型进行自训练，其中，合成音频数据由已存储的文本和参数化的声学环境信息生成，在自训练后，不存储用户音频数据。本发明专利技术实施例还提供一种语音识别模型自训练的系统。本发明专利技术实施例提升了声学模型自训练的效果；使得声学模型在进行自训练时不需要存储通用数据也可以取得既在客户目标场景上取得识别准确率提升，又能保持通用识别效果。保障了数据安全性。可以持续进行增量学习，用户不必每次都将以往所有的数据用于训练，减少了每次的训练耗时，优化用户的产品体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型自训练方法及系统
本专利技术涉及声学模型领域，尤其涉及一种语音识别模型自训练的方法及系统。
技术介绍
声学模型自训练技术是指：通过将声学模型的优化训练能力以界面化或者接口的方式开放给用户(使用者)，使得用户能够利用自己的已完成标注的数据进行声学模型的调优。自训练通常是通过提供平台或接口，让用户具有自主优化语音识别模型中声学模型的能力，用户只需要按要求上传待优化场景的语音和对应标注文本，即可自主完成模型的优化。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：1、灾难性遗忘：现有的声学模型自训练技术一般为利用用户上传的目标场景数据在一个用大量数据训练的模型上(如10万小时)进行调整性训练，由于声学模型所采用的深度神经网络存在灾难性遗忘(catastrophicforgetting)问题，会导致虽然在用户期望优化的某一场景上识别准确率一般取得了提升，但是在包括通用场景在内的其它场景上会造成识别准确率的下降，模型的可扩展性大大降低，阻碍业务扩展。2、训练耗时严重，数据安全存在隐患：声学模型通常使用深度神经网络建模，其建模复杂度高，通常都要使用如GPU等并行加速算力进行支持，模型训练的耗时与用于训练的数据量一般呈线性增长关系。现有技术中在利用用户数据进行调整性训练时，一般需要将用户过往上传的音频和对应标注都使用起来进行训练，一方面训练的速度不够快，用户需要等很久才能完成声学模型的训练，另一方面在一些对数据保密和数据存活周期极为严格的领域，存在安全隐患。总的来说，由于...

【技术保护点】
1.一种语音识别模型自训练的方法，包括：/n利用合成音频数据和当前上传的用户音频数据，对语音识别模型进行自训练，其中，所述合成音频数据由已存储的文本和参数化的声学环境信息生成，/n在自训练后，不存储所述用户音频数据。/n

【技术特征摘要】
1.一种语音识别模型自训练的方法，包括：
利用合成音频数据和当前上传的用户音频数据，对语音识别模型进行自训练，其中，所述合成音频数据由已存储的文本和参数化的声学环境信息生成，
在自训练后，不存储所述用户音频数据。

2.根据权利要求1所述的方法，其中，所述自训练为增量自训练。

3.根据权利要求1所述的方法，其中，在所述自训练后，所述方法还包括：将所述用户音频数据转化为文本和参数化的声学环境信息进行存储。

4.根据权利要求1所述的方法，其中，所述已存储的文本和参数化的声学环境信息还包括通用的文本和通用的参数化的声学环境信息。

5.根据权利要求1所述的方法，其中，所述合成音频数据由已存储的文本和参数化的声学环境信息输入至数据海绵模型生成的。

6.根据权利要求5所述的方法，其中，所述数据海绵模型的训练过程包括：
提取训练音频中的声学环境参数；
通过所述声学环境参数、所述训练音频、所...

【专利技术属性】
技术研发人员：薛少飞，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人