【技术实现步骤摘要】
一种语音识别模型构建及语音识别方法、装置及存储介质
[0001]本专利技术实施例涉及深度学习
,尤其涉及一种语音识别模型构建及语音识别方法、装置及存储介质。
技术介绍
[0002]目前混合语音识别方案,如高斯混合模型(Gaussian mixture model,GMM)+隐马尔可夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Networks,DNN)+HMM,在训练中的过程中依赖于HMM的对齐结果,训练过程比较复杂,而且受限于HMM的模型效果,语音识别准确率不高;作为一种对混合语音识别方案的改进,端到端语音识别方案,则是一步到位,避开输入与输出手动对齐的一种方式,不依赖于其他额外信息,可以基于CTC(Connectionist Temporal Classification)直接进行训练,准确率高,但训练难度高,对于数据量方面需求也比较高。所以亟待提出一种新的语音识别模型构建方法对语音识别模型进行构建以降低训练数据量需求的同时提高语音识别准确率。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种语音识别模型构建方法,其特征在于,包括:获取音频数据集;对所述音频数据集中的每一音频数据进行特征提取,得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集;利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件,其中,所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成,所述音素识别模型的输出为所述发音识别模型输入,所述发音识别模型的输出为所述语言识别模型输入。2.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述利用所述目标音频特征数据集对目标识别模型进行训练直至训练结果满足预设条件,包括:利用所述目标音频特征数据集对目标识别模型进行迭代训练;计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值,直到联合加权损失值满足预设条件。3.根据权利要求2所述的语音识别模型构建方法,其特征在于,所述计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值步骤之后,还包括:将所述联合加权损失值进行梯度回传;基于回传的联合加权损失值,调整目标识别模型中参数。4.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述音素识别模型包括级联的单因素识别模型和三音素识别模型,所述单因素识别模型的输出用于对所述三音素识别模型的训练。5.一种语音识别方法,其特征在于,包括:获取待识别音频数据;将所述待识别音频数据输入利用如权利要求1
‑
4中任一项所述的语音识别模型构建方法构建得到的目标识别模型;根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。6.根据权利要求5所述的语音识别方法,其特征在于,所述根据所述目标识别模型的输出结果确定所述待识别音频数据的内容,包括:...
【专利技术属性】
技术研发人员:赵晴,
申请(专利权)人:镁佳北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。