语言模型的自适应训练方法、装置、存储介质及设备制造方法及图纸

技术编号：28715368 阅读：20 留言：0更新日期：2021-06-06 01:44

本发明专利技术公开了一种语言模型的自适应训练方法、装置、存储介质及设备，其中，该自适应训练方法包括：实时在线获取新增训练语料；对所述新增训练语料进行语言模型训练并积累，编译形成动态识别搜索图；将所述动态识别搜索图作为子图，插入到静态识别搜索图的预先设定的槽位中，形成自适应识别搜索图以进行自适应语言识别。本发明专利技术实施例能够使运行中的语音识别服务在不停服的情况下动态热更新和添加错误识别文本和其他生僻词，新增词文本的修正语言模型数据，从而可以随时修正错误，增强识别性能、不需要回归测试，大大提高效率和维护成本。大大提高效率和维护成本。大大提高效率和维护成本。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的自适应训练方法、装置、存储介质及设备

[0001]本专利技术实施例涉及网络
，尤其涉及语言模型的自适应训练方法、装置、存储介质及设备。

技术介绍

[0002]随着大数据时代的来临，大词表连续语音识别，也就是通常说的听写识别技术，通过对大规模语音数据和文本数据的学习，声学模型和语言模型的准确度和可用度，都已经达到了比较好的水平。然而，即便如此，通用的大词表连续语言识别，仍然无法完美应对实际应用中碰到的各种说法句式、生僻词、生僻措辞和文法的支持。通常需要有人定期搜集和积累识别错误和难以识别的句子文本，然后重新离线训练和更新语言模型，使其能够适应这些错误并得到正确结果。
[0003]但是，这种离线训练和更新语言模型的做法代价较大，有时候为了一个或者几十个错误就要更新一次，费时费力，对运行中的系统又要进行回归测试等，效率不高。

技术实现思路

[0004]本专利技术实施例提供了语言模型的自适应训练方法、装置、存储介质及设备，以在不停服的情况下动态热更新和添加错误识别文本和其他生僻词，新增词文本的修正语言模型数据。
[0005]第一方面，本专利技术实施例提供了一种语言模型的自适应训练方法，包括：
[0006]实时在线获取新增训练语料；
[0007]对所述新增训练语料进行语言模型训练并积累，编译形成动态识别搜索图；
[0008]将所述动态识别搜索图作为子图，插入到静态识别搜索图的预先设定的槽位中，形成自适应识别搜索图以进行自适应语言识别。
[0009]...

【技术保护点】

【技术特征摘要】
1.一种语言模型的自适应训练方法，其特征在于，包括：实时在线获取新增训练语料；对所述新增训练语料进行语言模型训练并积累，编译形成动态识别搜索图；将所述动态识别搜索图作为子图，插入到静态识别搜索图的预先设定的槽位中，形成自适应识别搜索图以进行自适应语言识别。2.根据权利要求1所述的语言模型的自适应训练方法，其特征在于，对所述新增训练语料进行语言模型训练并积累，编译形成动态识别搜索图，包括：对所述新增训练语料进行语言模型训练并积累，形成动态语言模型；根据所述动态语言模型以及相应的声学模型和发音字典，编译获得动态识别搜索图。3.根据权利要求2所述的语言模型的自适应训练方法，其特征在于，所述对所述新增训练语料进行语言模型训练并积累，形成动态语言模型，包括：采用n元文法n
‑
gram对所述新增训练语料进行语言模型分词训练并积累，形成所述动态语言模型，其中，n大于或等于3。4.根据权利要求1所述的语言模型的自适应训练方法，其特征在于，将所述动态识别搜索图作为子图，插入到静态识别搜索图的预先设定的槽位中，包括：在所述静态语言模型中引入特殊字符<SUB>，所述特殊字符<SUB>用于随机挑选所述静态语言模型对应的训练语料中语句的单词，并进行随机替换添加为新语句；将所述动态识别搜索图作为字符，替换所述特殊字符<SUB>。5.根据权利要求1所述的语言模型的自适应训练方...

【专利技术属性】
技术研发人员：徐燃，
申请(专利权)人：北京儒博科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人