语言模型的自适应训练方法、装置、存储介质及设备制造方法及图纸

技术编号:28715368 阅读:20 留言:0更新日期:2021-06-06 01:44
本发明专利技术公开了一种语言模型的自适应训练方法、装置、存储介质及设备,其中,该自适应训练方法包括:实时在线获取新增训练语料;对所述新增训练语料进行语言模型训练并积累,编译形成动态识别搜索图;将所述动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,形成自适应识别搜索图以进行自适应语言识别。本发明专利技术实施例能够使运行中的语音识别服务在不停服的情况下动态热更新和添加错误识别文本和其他生僻词,新增词文本的修正语言模型数据,从而可以随时修正错误,增强识别性能、不需要回归测试,大大提高效率和维护成本。大大提高效率和维护成本。大大提高效率和维护成本。

【技术实现步骤摘要】
语言模型的自适应训练方法、装置、存储介质及设备


[0001]本专利技术实施例涉及网络
,尤其涉及语言模型的自适应训练方法、装置、存储介质及设备。

技术介绍

[0002]随着大数据时代的来临,大词表连续语音识别,也就是通常说的听写识别技术,通过对大规模语音数据和文本数据的学习,声学模型和语言模型的准确度和可用度,都已经达到了比较好的水平。然而,即便如此,通用的大词表连续语言识别,仍然无法完美应对实际应用中碰到的各种说法句式、生僻词、生僻措辞和文法的支持。通常需要有人定期搜集和积累识别错误和难以识别的句子文本,然后重新离线训练和更新语言模型,使其能够适应这些错误并得到正确结果。
[0003]但是,这种离线训练和更新语言模型的做法代价较大,有时候为了一个或者几十个错误就要更新一次,费时费力,对运行中的系统又要进行回归测试等,效率不高。

技术实现思路

[0004]本专利技术实施例提供了语言模型的自适应训练方法、装置、存储介质及设备,以在不停服的情况下动态热更新和添加错误识别文本和其他生僻词,新增词文本的修正语言模型数据。
[0005]第一方面,本专利技术实施例提供了一种语言模型的自适应训练方法,包括:
[0006]实时在线获取新增训练语料;
[0007]对所述新增训练语料进行语言模型训练并积累,编译形成动态识别搜索图;
[0008]将所述动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,形成自适应识别搜索图以进行自适应语言识别。
[0009]第二方面,本专利技术实施例还提供了一种语言模型的自适应训练装置,所述语言模型包含于端到端的语音识别系统中,所述自适应训练装置包括:
[0010]训练语料获取模块,用于实时在线获取新增训练语料;
[0011]动态图编译模块,用于对所述新增训练语料进行语言模型训练并积累,编译形成动态识别搜索图;
[0012]静态图编译模块,用于将所述动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,形成自适应识别搜索图以进行自适应语言识别。
[0013]第三方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的语言模型的自适应训练方法。
[0014]第四方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语言模型的自适应训练方法。
[0015]本专利技术实施例中,首先通过实时在线获取新增训练语料;然后对新增训练语料进
行语言模型训练并积累,编译形成动态识别搜索图;再将动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,最后形成自适应识别搜索图以进行自适应语言识别。本专利技术实施例利用上述技术方案,能够使运行中的语音识别服务在不停服的情况下动态热更新和添加错误识别文本和其他生僻词,新增词文本的修正语言模型数据,从而可以随时修正错误,增强识别性能、不需要回归测试,大大提高效率和维护成本。
附图说明
[0016]图1为本专利技术实施例一提供的一种语言模型的自适应训练方法的流程示意图;
[0017]图2是本专利技术实施例一提供的动态识别搜索图插入静态识别搜索图的原理示意图;
[0018]图3为本专利技术实施例二提供的一种语言模型的自适应训练方法的流程示意图;
[0019]图4是本专利技术实施例二提供的自适应训练的流程图;
[0020]图5为本专利技术实施例三提供的一种语言模型的自适应训练装置的结构示意图;
[0021]图6为本专利技术实施例四提供的一种计算机设备的结构示意图。
具体实施方式
[0022]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0023]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0024]本专利技术使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
[0025]需要注意,本专利技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0026]实施例一
[0027]图1为本专利技术实施例一提供的一种语言模型的自适应训练方法的流程示意图,该方法可以由语言模型的自适应训练装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在计算机设备上。如图1所示,本专利技术实施例一提供的一种语言模型的自适应训练方法,包括如下步骤:
[0028]S110、实时在线获取新增训练语料;
[0029]示例性地,本专利技术实施例中的语言模型是端到端的语言识别系统中的语言模型,具体可以为深度语言模型。训练语料来源于日常生活中的各个方面,而新增训练语料表示对现有训练语料的补充,其可以是针对特定应用场景的新的词语、语句等,也可以是日益增加和更新的日常用语或专业用语等;可以理解,在网络、科技发展的社会,语言、文字等也在
更新和发展,此处的新增训练语料也包含新创造的语言和文字等,此次不做限制。
[0030]新增训练语料为已有训练语料和语言模型的基础上,人为添加的训练语料,用语对已有语言模型进行更新,实现自适应语音识别。
[0031]S120、对新增训练语料进行语言模型训练并积累,编译形成动态识别搜索图;
[0032]本领域技术人员可以理解,语言模型的语音识别过程,一般需要编译转换为识别搜索图,加载在识别器上以实现语音识别过程。此处,将新增训练语料通过语言模型训练和积累,编译形成动态识别搜索图的过程,实质上是赋予新的语言模型对新增训练语料的语音识别能力的过程。可以理解,此处的动态识别搜索图实质上是创建了基于新增训练语料的语言模型概率。
[0033]S130、将动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,形成自适应识别搜索图以进行自适应语言识别。
[0034]图2是本专利技术实施例提供的动态识别搜索图插入静态识别搜索图的原理示意图,参考图2,静态识别搜索图是基于离线训练更新的语言模型编译形成,其负责主要的、基础的和初始的语言识别功能。本实施例重点在于,在静态识别搜索图中预先设置槽位,可以在该槽位中增加新的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的自适应训练方法,其特征在于,包括:实时在线获取新增训练语料;对所述新增训练语料进行语言模型训练并积累,编译形成动态识别搜索图;将所述动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,形成自适应识别搜索图以进行自适应语言识别。2.根据权利要求1所述的语言模型的自适应训练方法,其特征在于,对所述新增训练语料进行语言模型训练并积累,编译形成动态识别搜索图,包括:对所述新增训练语料进行语言模型训练并积累,形成动态语言模型;根据所述动态语言模型以及相应的声学模型和发音字典,编译获得动态识别搜索图。3.根据权利要求2所述的语言模型的自适应训练方法,其特征在于,所述对所述新增训练语料进行语言模型训练并积累,形成动态语言模型,包括:采用n元文法n

gram对所述新增训练语料进行语言模型分词训练并积累,形成所述动态语言模型,其中,n大于或等于3。4.根据权利要求1所述的语言模型的自适应训练方法,其特征在于,将所述动态识别搜索图作为子图,插入到静态识别搜索图的预先设定的槽位中,包括:在所述静态语言模型中引入特殊字符<SUB>,所述特殊字符<SUB>用于随机挑选所述静态语言模型对应的训练语料中语句的单词,并进行随机替换添加为新语句;将所述动态识别搜索图作为字符,替换所述特殊字符<SUB>。5.根据权利要求1所述的语言模型的自适应训练方...

【专利技术属性】
技术研发人员:徐燃
申请(专利权)人:北京儒博科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1