【技术实现步骤摘要】
领域语言模型构建方法、装置、计算机设备及存储介质
本专利技术涉及语音识别
,特别涉及一种领域语言模型构建方法、装置、计算机设备及存储介质。
技术介绍
语音识别方案大多为基于语言模型的识别方案。在训练语言模型时,最常采用的模型是N-Gram模型,N-Gram模型是一种统计语言模型,一般来说语料越大则模型效果越好。随着场景的不断深入,经常要求做出各种满足特定场景需求同时具有泛化能力的语言模型,这对语料的选择提出了更高的要求。目前,常用的构建满足特定场景的语言模型的方法一般有两种,一种是直接通过收集相关领域语料进行训练,另一种是将训练后的语言模型按一定权重与通用语言模型进行融合,来增加泛化能力,而上述两种方法都需要大量的领域训练语料,但是找到贴合场景的领域语料并不是很容易。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种领域语言模型构建方法、装置、计算机设备及存储介质,能够在领域训练语料不足的情况下,快速构建满足特定场景并且具有通用泛化能力的领域语言模型。第一方面,提供了 ...
【技术保护点】
1.一种领域语言模型构建方法,其特征在于,所述方法包括:/n将通用语言模型转换为等价的第一WFSA网络;/n根据预设数目的领域语料,从所述第一WFSA网络中筛选出满足预设条件的最优路径,以构造第二WFSA网络;/n对所述第二WFSA网络进行归一化,并将归一化后的所述第二WFSA网络转换为领域语言模型。/n
【技术特征摘要】
1.一种领域语言模型构建方法,其特征在于,所述方法包括:
将通用语言模型转换为等价的第一WFSA网络;
根据预设数目的领域语料,从所述第一WFSA网络中筛选出满足预设条件的最优路径,以构造第二WFSA网络;
对所述第二WFSA网络进行归一化,并将归一化后的所述第二WFSA网络转换为领域语言模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设数目的领域语料,从所述第一WFSA网络中筛选出满足预设条件的最优路径,以构造第二WFSA网络,包括:
针对每一个所述领域语料,在所述第一WFSA网络中搜索出预设数量的候选最优路径;以及
在所述预设数量的候选最优路径中,筛选出所述领域语料对应的最优路径,其中,所述最优路径的每个状态节点的发射弧上的概率均超过预设阈值;
根据各个所述领域语料对应的最优路径,构造所述第二WFSA网络。
3.根据权利要求2所述的方法,其特征在于,所述针对每一个所述领域语料,在所述第一WFSA网络中搜索出预设数量的候选最优路径,包括:
针对每一个所述领域语料,将所述领域语料输入所述第一WFSA网络中进行搜索,得到所述领域语料对应的多个候选路径及各所述候选路径的路径概率;
对所述领域语料对应的多个所述候选路径按照路径概率从高至低的顺序进行排序,将排序在前预设数量位的候选路径作为所述领域语料的候选最优路径。
4.根据权利要求1至3任一所述的方法,其特征在于,所述对所述第二WFSA网络进行归一化,包括:
根据所述第二WFSA网络中的每个状态节点的发射弧数以及各个发射弧上的概率,对所述第二WFSA网络中每个状态节点的所有发射弧上的概率进行归一化。
5.根据权利要求1所述的方法,其特征在于,所述通用语言模型、所述领域语言模型均为N-Gra...
【专利技术属性】
技术研发人员:张旭华,齐欣,孙泽明,朱林林,王宁,
申请(专利权)人:苏宁云计算有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。