模型生成方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号：31229353 阅读：14 留言：0更新日期：2021-12-08 09:58

本公开的实施例公开了模型生成方法、装置、电子设备和计算机可读介质。该模型生成方法的一具体实施方式包括：获取目标文本集和预先训练的第一N元语法模型，其中，该第一N元语法模型是利用文本集组训练的；对该目标文本集进行预处理，得到预处理后的目标文本集；利用该预处理后的目标文本集，生成训练后的第二N元语法模型；依照预先设定的条件对该预先训练的第一N元语法模型和该训练后的第二N元语法模型进行融合，得到第三N元语法模型。该实施方式通过模型之间的融合来生成更为准确、有效的融合模型，以此侧面提高了语言模型的识别率。以此侧面提高了语言模型的识别率。以此侧面提高了语言模型的识别率。

全部详细技术资料下载

【技术实现步骤摘要】
模型生成方法、装置、电子设备和计算机可读介质

[0001]本公开的实施例涉及计算机
，具体涉及模型生成方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]目前，很多领域都涉及语音识别方面的应用。各个领域的用户术语和上下文均有明显差异，例如医疗领域语音识别会涉及到大量医学术语和包含医学用语的句子，地图领域语音识别会涉及大量地名和搜索、查找、导航等话术。这些应用领域的差异可能会导致语言模型应用于全新的行业时的语音识别准确率往往不尽如人意。因此，需要进一步提高语言模型识别的准确率。

技术实现思路

[0003]本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开的一些实施例提出了模型生成方法、装置、设备和计算机可读介质，来解决以上
技术介绍
部分提到的技术问题。
[0005]第一方面，本公开的一些实施例提供了一种模型生成方法，该方法包括：获取目标文本集和预先训练的第一N元语法模型，其中，上述第一N元语法模型是利用文本集组训练的；对上述目标文本集进行预处理，得到预处理后的目标文本集；利用上述预处理后的目标文本集，生成训练后的第二N元语法模型；依照预先设定的条件对上述预先训练的第一N元语法模型和上述训练后的第二N元语法模型进行融合，得到第三N元语法模型。
[0006]可选的，上述方法还包括：利用上述第三N元语法...

【技术保护点】

【技术特征摘要】
1.一种模型生成方法，包括：获取目标文本集和预先训练的第一N元语法模型，其中，所述第一N元语法模型是利用文本集组训练的；对所述目标文本集进行预处理，得到预处理后的目标文本集；利用所述预处理后的目标文本集，生成训练后的第二N元语法模型；依照预先设定的条件对所述预先训练的第一N元语法模型和所述训练后的第二N元语法模型进行融合，得到第三N元语法模型。2.根据权利要求1所述的方法，其中，所述方法还包括：利用所述第三N元语法模型，确定目标语句的概率值。3.根据权利要求1所述的方法，其中，所述对所述目标文本集进行预处理，得到预处理后的目标文本集，包括：对所述目标文本集中每个文本进行文本归一化处理以生成处理后的文本，得到处理后的文本集作为所述预处理后的目标文本集。4.根据权利要求3所述的方法，其中，所述对所述目标文本集中每个文本进行文本归一化处理以生成处理后的文本，得到处理后的文本集作为所述预处理后的目标文本集，包括：对所述目标文本集中每个文本中的第一类型字符进行清除以生成清除后的文本，得到清除后的目标文本集；对所述清除后的目标文本集中每个文本中的第二类型字符进行字符替换以生成替换后的文本，得到替换后的文本集作为所述预处理后的目标文本集。5.根据权利要求1所述的方法，其中，所述利用所述预处理后的目标文本集，生成训练后的第二N元语法模型，包括：对所述预处理后的目标文本集中每个文本进行分词处理以生成字段集合，得到字段集合组；将所述字段集合组作为训练集，生成训练后的第二N元语法模型。6.根据权利要求1所述的方法，其中，所述依照...

【专利技术属性】
技术研发人员：邓丽萍，蔡玉玉，吴俊仪，刘郁葱，范璐，杨帆，丁国宏，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人