【技术实现步骤摘要】
一种语音识别方法方法、装置及电子设备
[0001]本申请涉及信息处理
,具体涉及一种语音识别方法
、
装置及电子设备
。
技术介绍
[0002]流式语音识别系统是指可以在处理音频流的过程中,支持实时返回识别结果的一类语音识别模型
。
流式语音识别使用联结时序分类模型
(Connectionist Temporal Classification
,
CTC)
作为基础模型来构架流式语音识别系统
。
[0003]目前,现有的流式语音识别系统使用
Transformer
模型,通过应用注意力机制来检测语音流中未来帧的数据并建立相互依赖,从而对语音识别系统进行训练
。
[0004]然而,在注意力机制对应的掩码矩阵中,每个块
(chunk)
的注意力范围都为掩码矩阵中已识别的块,会导致流式语音识别系统缺乏对待识别块的预测,需要一定的延时才能输出识别结果,进而导致用户发音结束到系统识别出对应文字之间的时间差较大,产生较长的出字时间延迟
。
技术实现思路
[0005]有鉴于此,本申请提供了一种语音识别方法
、
装置及电子设备,主要目的在于改善目前现有的在注意力机制对应的掩码矩阵中,每个块的注意力范围都为掩码矩阵中已识别的块,会导致流式语音识别系统缺乏对待识别块的预测,需要一定的延时才能输出识别结果,进而导致用户发音结束到系统识别出对应文字之间的时间差较 ...
【技术保护点】
【技术特征摘要】
1.
一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音信息,所述语音信息中包含多个语音信号;将所述语音信息输入
Transformer
模型中与注意力矩阵进行匹配,确定所述多个语音信号分别对应的注意力范围,其中,所述注意力矩阵中包含上三角矩阵形式的第一掩码矩阵,所述第一掩码矩阵用于确定每个语音信号的注意力范围为待识别的语音信号对应的块;依据所述多个语音信号分别对应的注意力范围,对待识别的语音信息进行语音识别
。2.
根据权利要求1所述的方法,其特征在于,所述
Transformer
模型的训练过程包括:根据所述注意力矩阵创建所述
Transformer
模型;对所述
Transformer
模型进行模型训练
。3.
根据权利要求2所述的方法,其特征在于,在根据所述注意力矩阵创建所述
Transformer
模型之前,所述方法还包括:获取
Transformer
模型中注意力机制对应的第二掩码矩阵,所述第二掩码矩阵用于确定每个语音信号的注意力范围为已识别的语音信号对应的块,所述第二掩码矩阵为下三角矩阵形式;根据所述第一掩码矩阵和所述第二掩码矩阵,确定所述注意力矩阵
。4.
根据权利要求3所述的方法,其特征在于,根据所述第一掩码矩阵和所述第二掩码矩阵,确定所述注意力矩阵,包括:基于预设语音识别延时时间和预设语音识别精确度,确定所述第一掩码矩阵和所述第二掩码矩阵之间的目标比例;依据目标比例的所述第一掩码矩阵和所述第二掩码矩阵,确定所述注意力矩阵
。5.
根据权利要求3所述的方法,其特征在于,所述第一掩码矩阵为第二掩码矩阵的转置矩阵
...
【专利技术属性】
技术研发人员:王洲,王伟戌,商迎新,王强强,
申请(专利权)人:北京云思智学科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。