一种语音识别方法、装置、语音识别设备及存储介质制造方法及图纸

技术编号:31314384 阅读:34 留言:0更新日期:2021-12-12 22:21
本发明专利技术实施例公开了一种语音识别方法、装置、语音识别设备及存储介质。所述方法包括:获取待识别语音的第一编码特征;通过预先训练的排列语言模型生成待识别语音的深度双向音嵌入向量;对第一编码特征与深度双向音嵌入向量的融合特征进行解码,得到语音识别结果。该方法通过排列语言模型将待识别语音生成深度双向音嵌入向量,并将该音嵌入向量也作为语音识别模型的输入,能够为语音识别模型的输入侧提供丰富的待识别语音的特征,避免了现有语音识别模型中增加计算资源和标注成本的缺陷;进一步,将上述音嵌入向量与语音识别模型中的第一编码特征融合作为输入,并对融合特征进行解码得到语音识别结果,能够提高语音识别的速度和准确性。准确性。准确性。

【技术实现步骤摘要】
一种语音识别方法、装置、语音识别设备及存储介质


[0001]本专利技术实施例涉及语音处理
,尤其涉及一种语音识别方法、装置、语音识别设备及存储介质。

技术介绍

[0002]语音识别,是将一段语音信号转化为相应的文本。随着直播、音频资讯等新的内容传播方式的兴起,为了使得人机交互更加高效,提升用户体验,对语音识别的要求越来越高,从而需要一个识别速度快、准确率高的语音识别模型。
[0003]目前语音识别模型的提升方向,基本是增加模型参数量,或者是喂入模型更多更优质的数据。
[0004]然而,增加模型参数量和喂入模型更多更优质的数据本质都是增加数据规模。其中,增加模型参数量的方法,会使得在后期语音识别模型上线时,需要更多的计算资源,而且在同等计算资源下,相较于其他模型,本模型的识别速度会降低。喂入模型更多更优质的数据的方法,需要投入大量的标注成本。故,如何在降低语音识别模型对数据规模依赖的情况下提高模型的速度和准确率,是当前丞待解决的技术问题。

技术实现思路

[0005]本专利技术实施例提供了一种语音识别方法、装置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音的第一编码特征;通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量;对所述第一编码特征与所述深度双向音嵌入向量的融合特征进行解码,得到语音识别结果。2.根据权利要求1所述的方法,其特征在于,通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量,包括:获取所述待识别语音的特征帧序列和帧序列位置编码;将所述特征帧序列和所述帧序列位置编码输入至所述排列语言模型,所述排列语言模型的输出为所述深度双向音嵌入向量。3.根据权利要求1所述的方法,其特征在于,在通过预先训练的排列语言模型生成所述待识别语音的深度双向音嵌入向量之前,还包括:基于注意力机制的掩码矩阵创建所述排列语言模型;根据语音样本训练所述排列语言模型。4.根据权利要求3所述的方法,其特征在于,所述根据语音样本训练所述排列语言模型,包括:提取所述语音样本的特征帧序列,并随机对所述语音样本中的部分字对应的特征帧序列进行掩码;通过所述排列语言模型,根据所述语音样本的特征帧序列和对应的帧序列位置编码,生成所述语音样本的第二编码特征,并根据所述第二编码特征预测被掩码的字;若不满足训练停止条件,则根据预测结果更新所述排列语言模型,并返回执行上述的特征帧序列提取操作,直至满足训练停止条件。5.根据权利要...

【专利技术属性】
技术研发人员:曾传名陆文渊万仙明
申请(专利权)人:上海企创信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1