模型生成方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:31229353 阅读:14 留言:0更新日期:2021-12-08 09:58
本公开的实施例公开了模型生成方法、装置、电子设备和计算机可读介质。该模型生成方法的一具体实施方式包括:获取目标文本集和预先训练的第一N元语法模型,其中,该第一N元语法模型是利用文本集组训练的;对该目标文本集进行预处理,得到预处理后的目标文本集;利用该预处理后的目标文本集,生成训练后的第二N元语法模型;依照预先设定的条件对该预先训练的第一N元语法模型和该训练后的第二N元语法模型进行融合,得到第三N元语法模型。该实施方式通过模型之间的融合来生成更为准确、有效的融合模型,以此侧面提高了语言模型的识别率。以此侧面提高了语言模型的识别率。以此侧面提高了语言模型的识别率。

【技术实现步骤摘要】
模型生成方法、装置、电子设备和计算机可读介质


[0001]本公开的实施例涉及计算机
,具体涉及模型生成方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]目前,很多领域都涉及语音识别方面的应用。各个领域的用户术语和上下文均有明显差异,例如医疗领域语音识别会涉及到大量医学术语和包含医学用语的句子,地图领域语音识别会涉及大量地名和搜索、查找、导航等话术。这些应用领域的差异可能会导致语言模型应用于全新的行业时的语音识别准确率往往不尽如人意。因此,需要进一步提高语言模型识别的准确率。

技术实现思路

[0003]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开的一些实施例提出了模型生成方法、装置、设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。
[0005]第一方面,本公开的一些实施例提供了一种模型生成方法,该方法包括:获取目标文本集和预先训练的第一N元语法模型,其中,上述第一N元语法模型是利用文本集组训练的;对上述目标文本集进行预处理,得到预处理后的目标文本集;利用上述预处理后的目标文本集,生成训练后的第二N元语法模型;依照预先设定的条件对上述预先训练的第一N元语法模型和上述训练后的第二N元语法模型进行融合,得到第三N元语法模型。
[0006]可选的,上述方法还包括:利用上述第三N元语法模型,确定目标语句的概率值。
[0007]可选的,上述对上述目标文本集进行预处理,得到预处理后的目标文本集,包括:对上述目标文本集中每个文本进行文本归一化处理以生成处理后的文本,得到处理后的文本集作为上述预处理后的目标文本集。
[0008]可选的,上述对上述目标文本集中每个文本进行文本归一化处理以生成处理后的文本,得到处理后的文本集作为上述预处理后的目标文本集,包括:对上述目标文本集中每个文本中的第一类型字符进行清除以生成清除后的文本,得到清除后的目标文本集;对上述清除后的目标文本集中每个文本中的第二类型字符进行字符替换以生成替换后的文本,得到替换后的文本集作为上述预处理后的目标文本集。
[0009]可选的,上述利用上述预处理后的目标文本集,生成训练后的第二N元语法模型:对上述预处理后的目标文本集中每个文本进行分词处理以生成字段集合,得到字段集合组;将上述字段集合组作为训练集,生成训练后的第二N元语法模型。
[0010]可选的,上述依照预先设定的条件对上述预先训练的第一N元语法模型和上述训练后的第二N元语法模型进行融合,得到第三N元语法模型,包括:依照上述预先设定的条件
将上述预先训练的第一N元语法模型中的各个字段组和上述训练后的第二N元语法模型中的各个字段组进行融合,得到融合后的N元语法模型作为上述第三N元语法模型。
[0011]第二方面,本公开的一些实施例提供了一种模型生成装置,装置包括:获取单元,被配置成获取目标文本集和预先训练的第一N元语法模型,其中,上述第一N元语法模型是利用文本集组训练的;预处理单元,被配置成对上述目标文本集进行预处理,得到预处理后的目标文本集;训练单元,被配置成利用上述预处理后的目标文本集,生成训练后的第二N元语法模型;融合单元,被配置成依照预先设定的条件对上述预先训练的第一N元语法模型和上述训练后的第二N元语法模型进行融合,得到第三N元语法模型。
[0012]可选的,装置还包括:利用上述第三N元语法模型,确定目标语句的概率值。
[0013]可选的,预处理单元进一步配置成:对上述目标文本集中每个文本进行文本归一化处理以生成处理后的文本,得到处理后的文本集作为上述预处理后的目标文本集。
[0014]可选的,预处理单元进一步配置成:对上述目标文本集中每个文本中的第一类型字符进行清除以生成清除后的文本,得到清除后的目标文本集;对上述清除后的目标文本集中每个文本中的第二类型字符进行字符替换以生成替换后的文本,得到替换后的文本集作为上述预处理后的目标文本集。
[0015]可选的,训练单元进一步配置成:对上述预处理后的目标文本集中每个文本进行分词处理以生成字段集合,得到字段集合组;将上述字段集合组作为训练集,生成训练后的第二N元语法模型。
[0016]可选的,融合单元进一步配置成:依照上述预先设定的条件将上述预先训练的第一N元语法模型中的各个字段组和上述训练后的第二N元语法模型中的各个字段组进行融合,得到融合后的N元语法模型作为上述第三N元语法模型。
[0017]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
[0018]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
[0019]本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的模型生成方法可以通过模型之间的融合来生成更为准确、有效的融合模型,侧面提高了语言模型的识别率。具体来说,各个应用领域的差异可能会导致语言模型应用于全新的行业时的语音识别准确率往往不尽如人意。因此,需要进一步提高语言模型识别的准确率。基于此,本公开的一些实施例的模型生成方法可以首先获取与某领域相关联的目标文本集和与各个领域存在关联关系的预先训练的第一N元语法模型。其中,上述第一N元语法模型是利用文本集组训练的。在这里,获取目标文本集用于后续训练第二N元语法模型。然后,对上述目标文本集进行预处理以便于利用目标文本集对第二N元语法模型进行训练,得到预处理后的目标文本集。进而,利用上述预处理后的目标文本集,生成训练后的第二N元语法模型。在这里,上述训练后的第二N元语法模型中包括与上述目标文本集相关的语料信息。最后,依照预先设定的条件对上述预先训练的第一N元语法模型和上述训练后的第二N元语法模型进行融合,以使得到的第三N元语法模型可以包括上述目标文本集相关的语料信息和上述预先训练的第一N元语法模型中的语料信息。由此可得,该方法通过模型之间的融合来生成
更为准确、有效的融合模型,侧面提高了语言模型的识别率。
附图说明
[0020]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0021]图1是本公开的一些实施例的模型生成方法的一个应用场景图的示意图;
[0022]图2是根据本公开的模型生成方法一些实施例的流程图;
[0023]图3是根据本公开的一些实施例的模型生成方法的文本处理的示意图;
[0024]图4是根据本公开的模型生成方法的另一些实施例的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型生成方法,包括:获取目标文本集和预先训练的第一N元语法模型,其中,所述第一N元语法模型是利用文本集组训练的;对所述目标文本集进行预处理,得到预处理后的目标文本集;利用所述预处理后的目标文本集,生成训练后的第二N元语法模型;依照预先设定的条件对所述预先训练的第一N元语法模型和所述训练后的第二N元语法模型进行融合,得到第三N元语法模型。2.根据权利要求1所述的方法,其中,所述方法还包括:利用所述第三N元语法模型,确定目标语句的概率值。3.根据权利要求1所述的方法,其中,所述对所述目标文本集进行预处理,得到预处理后的目标文本集,包括:对所述目标文本集中每个文本进行文本归一化处理以生成处理后的文本,得到处理后的文本集作为所述预处理后的目标文本集。4.根据权利要求3所述的方法,其中,所述对所述目标文本集中每个文本进行文本归一化处理以生成处理后的文本,得到处理后的文本集作为所述预处理后的目标文本集,包括:对所述目标文本集中每个文本中的第一类型字符进行清除以生成清除后的文本,得到清除后的目标文本集;对所述清除后的目标文本集中每个文本中的第二类型字符进行字符替换以生成替换后的文本,得到替换后的文本集作为所述预处理后的目标文本集。5.根据权利要求1所述的方法,其中,所述利用所述预处理后的目标文本集,生成训练后的第二N元语法模型,包括:对所述预处理后的目标文本集中每个文本进行分词处理以生成字段集合,得到字段集合组;将所述字段集合组作为训练集,生成训练后的第二N元语法模型。6.根据权利要求1所述的方法,其中,所述依照...

【专利技术属性】
技术研发人员:邓丽萍蔡玉玉吴俊仪刘郁葱范璐杨帆丁国宏
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1