规则语言模型的生成方法及装置制造方法及图纸

技术编号:28492607 阅读:19 留言:0更新日期:2021-05-19 22:19
本公开实施例公开了一种规则语言模型的生成方法、装置、电子设备和计算机可读存储介质。其中该规则语言模型的生成方法包括:获取原始规则语言模型并将所述原始规则语言模型转换成加权有限状态转换器结构的第一图;获取统计语言模型并将所述统计语言模型转换成加权有限状态转换器结构的第二图;将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图;其中所述第三图中的边的权重根据所述第一图和所述第二图中的对应边的权重得到。通过上述方法中第一图和第二图的合并得到对应规则语言模型的第三图,使得规则语言模型中的边的权重发生变化,解决了现有技术中语音识别识别结果会偏向于规则语言模型技术问题。言模型技术问题。言模型技术问题。

【技术实现步骤摘要】
规则语言模型的生成方法及装置


[0001]本公开涉及语音识别领域,尤其涉及一种规则语言模型的生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]语音识别的市场越来越大,各种实际要求也各不相同。一般的识别场景下,所用的语言模型是基于统计的语言模型。但是在某些识别场景下,要识别的内容有很强的规律性或符合某种规则。例如,某些场景可能专门针对手机号识别,手机号的组成是有规律可循的,而且均是十一位。这样,就引入了基于规则的语言模型。而在同一个语音识别项目中,可能还会有闲聊模式,这种无规律可言,但确符合人类说话用语习惯的,就需要用到基于统计的语言模型。所以一套语音识别系统中,为了应对该项目所遇到的多种场景,会使用多个模型分支,这样就会出现基于统计的模型和基于规则的模型一起使用的情况
[0003]基于统计的语言模型中,词与词之间会统计出一个分数;基于规则的语言模型,只是表示一种句式规则,所以词与词之间是没有分数的,即分数全部为0。所以在实际解码中,识别结果会偏向于规则模型。结果就会遇到以下情况,即场景中出现一个句子,其上半部分符合规则模型的分布,但后半部分不符合规则模型的部分,那么识别过程中由于规则语言模型分数低,它在前半句将占据很大的优势,使得后半句虽然完全不符合规则,也会在规则语言模型里选择一条路径进行解码,导致识别不准确。

技术实现思路

[0004]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]第一方面,本公开实施例提供一种规则语言模型的生成方法,包括:
[0006]获取原始规则语言模型并将所述原始规则语言模型转换成加权有限状态转换器结构的第一图;
[0007]获取统计语言模型并将所述统计语言模型转换成加权有限状态转换器结构的第二图;
[0008]将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图;其中所述第三图中的边的权重根据所述第一图和所述第二图中的对应边的权重得到。
[0009]进一步的,所述原始规则语言模型通过预设的规则生成;所述第一图中包括多个第一状态节点以及所述第一状态节点之间的第一边,所述第一边包括输入字符和输出字符以及所述第一边的第一权重;多个所述第一边所形成的路径表示所述原始规则语言模型所能识别的字符串。
[0010]进一步的,所述统计语言模型通过通用语料生成;所述第二图中包括多个第二状
态节点以及所述第二状态节点之间的第二边,所述第二边包括输入字符和输出字符以及所述第二边的第二权重;多个所述第二边所形成的路径表示所述统计语言模型所能识别的字符串。
[0011]进一步的,所述将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图,包括:
[0012]获取所述第一图的初始第一状态节点和所述第二图的初始第二状态节点以形成当前状态节点对;
[0013]获取离开所述当前状态节点对中的第一状态节点的所有第一边;
[0014]获取离开所述当前状态节点对中的第二状态节点的所有第二边;
[0015]将符合合并规则的第一边和第二边合并为第三边;其中所述第三边的起始点为所述当前状态节点对,所述第三边的目标状态节点为生成所述第三边的第一边的目标状态节点和生成所述第三边的第二边的目标状态节点所形成的目标状态节点对;
[0016]将所述目标状态节点对作为当前状态节点对迭代执行上述合并操作直至没有符合合并规则的第一边和第二边或者所述当前状态节点对由第一图和第二图的终点状态节点形成。
[0017]进一步的,所述合并规则包括:所述第一边的输出字符与所述第二边的输入字符相同。
[0018]进一步的,所述合并规则包括:所述第一边的输入或输出字符与所述第二边的输入或输出字符中的任一个相同。
[0019]进一步的,所述将符合合并规则的第一边和第二边合并为第三边,包括:
[0020]将当前状态节点对作为第三边的起始状态节点;
[0021]根据所述第一边和所述第二边的目标状态节点生成所述第三边的目标状态节点;
[0022]将所述第一边的输入字符作为所述第三边的输入字符;
[0023]将所述第二边的输出字符作为所述第三边的输出字符。
[0024]进一步的,所述方法还包括:
[0025]获取第三图中以同一个状态节点为起始状态节点的第三边;
[0026]将输入字符相同的所述第三边进行合并。
[0027]进一步的,所述方法还包括:
[0028]去除所述第三图中的空边。
[0029]第二方面,本公开实施例提供一种规则语言模型的生成装置,包括:
[0030]第一构图模块,用于获取原始规则语言模型并将所述原始规则语言模型转换成加权有限状态转换器结构的第一图;
[0031]第二构图模块,用于获取统计语言模型并将所述统计语言模型转换成加权有限状态转换器结构的第二图;
[0032]合并模块,用于将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图;其中所述第三图中的边的权重根据所述第一图和所述第二图中的对应边的权重得到。
[0033]进一步的,所述原始规则语言模型通过预设的规则生成;所述第一图中包括多个第一状态节点以及所述第一状态节点之间的第一边,所述第一边包括输入字符和输出字符
以及所述第一边的第一权重;多个所述第一边所形成的路径表示所述原始规则语言模型所能识别的字符串。
[0034]进一步的,所述统计语言模型通过通用语料生成;所述第二图中包括多个第二状态节点以及所述第二状态节点之间的第二边,所述第二边包括输入字符和输出字符以及所述第二边的第二权重;多个所述第二边所形成的路径表示所述统计语言模型所能识别的字符串。
[0035]进一步的,所述合并模块,还用于:
[0036]获取所述第一图的初始第一状态节点和所述第二图的初始第二状态节点以形成当前状态节点对;
[0037]获取离开所述当前状态节点对中的第一状态节点的所有第一边;
[0038]获取离开所述当前状态节点对中的第二状态节点的所有第二边;
[0039]将符合合并规则的第一边和第二边合并为第三边;其中所述第三边的起始点为所述当前状态节点对,所述第三边的目标状态节点为生成所述第三边的第一边的目标状态节点和生成所述第三边的第二边的目标状态节点所形成的目标状态节点对;
[0040]将所述目标状态节点对作为当前状态节点对迭代执行上述合并操作直至没有符合合并规则的第一边和第二边或者所述当前状态节点对由第一图和第二图的终点状态节点形成。
[0041]进一步的,所述合并规则包括:所述第一边的输出字符与所述第二边的输入字符相同。
[0042]进一步的,所述合并规则包括:所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种规则语言模型的生成方法,其特征在于,包括:获取原始规则语言模型并将所述原始规则语言模型转换成加权有限状态转换器结构的第一图;获取统计语言模型并将所述统计语言模型转换成加权有限状态转换器结构的第二图;将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图;其中所述第三图中的边的权重根据所述第一图和所述第二图中的对应边的权重得到。2.如权利要求1所述的规则语言模型的生成方法,其特征在于,所述原始规则语言模型通过预设的规则生成;所述第一图中包括多个第一状态节点以及所述第一状态节点之间的第一边,所述第一边包括输入字符和输出字符以及所述第一边的第一权重;多个所述第一边所形成的路径表示所述原始规则语言模型所能识别的字符串。3.如权利要求1所述的规则语言模型的生成方法,其特征在于,所述统计语言模型通过通用语料生成;所述第二图中包括多个第二状态节点以及所述第二状态节点之间的第二边,所述第二边包括输入字符和输出字符以及所述第二边的第二权重;多个所述第二边所形成的路径表示所述统计语言模型所能识别的字符串。4.如权利要求2或3中任一项所述的规则语言模型的生成方法,其特征在于,所述将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图,包括:获取所述第一图的初始第一状态节点和所述第二图的初始第二状态节点以形成当前状态节点对;获取离开所述当前状态节点对中的第一状态节点的所有第一边;获取离开所述当前状态节点对中的第二状态节点的所有第二边;将符合合并规则的第一边和第二边合并为第三边;其中所述第三边的起始点为所述当前状态节点对,所述第三边的目标状态节点为生成所述第三边的第一边的目标状态节点和生成所述第三边的第二边的目标状态节点所形成的目标状态节点对;将所述目标状态节点对作为当前状态节点对迭代执行上述合并操作直至没有符合合并规则的第一边和第二边或者所述当前状态节点对由第一图和第二图的终点状态节点形成。5.如权利要求4所述的规...

【专利技术属性】
技术研发人员:陈孝良冯大航焦伟常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1