【技术实现步骤摘要】
一种语音识别方法、装置、电子设备及存储介质
本申请涉及语音处理
,具体而言,涉及一种语音识别方法、装置、电子设备及存储介质。
技术介绍
语音识别(AutomaticSpeechRecognition,ASR)是以语音为研究对象,通过语音信号处理让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本的技术。通常,语音识别都是在离线场景下进行的,鲜少可以实现在线场景下进行语音识别,因此,在保证识别准确性的前提下,如何实现在线语音识别是目前亟待解决的技术问题。
技术实现思路
有鉴于此,本申请的至少在于提供一种语音识别方法、装置、电子设备及存储介质,通过将切分次序与实时接收的每个语音序列进行关联,并将关联后的语音序列依次输入至语音识别模型中,这样,不仅可以实现在线语音识别,还可以提高语音识别的准确率。根据本申请的第一方面,提供了一种语音识别方法,所述语音识别方法包括:按照接收时序,将接收到的待识别语音切分为预设时长的多个语音序列;r>确定每个语音序列本文档来自技高网...
【技术保护点】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:/n按照接收时序,将接收到的待识别语音切分为预设时长的多个语音序列;/n确定每个语音序列对应的高维特征向量;/n按照切分次序,依次将每个语音序列的高维特征向量输入至语音识别模型中,得到每个语音序列对应的文本序列;/n基于得到的多个文本序列和每个文本序列对应的切分次序,确定待识别语音的文本信息。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:
按照接收时序,将接收到的待识别语音切分为预设时长的多个语音序列;
确定每个语音序列对应的高维特征向量;
按照切分次序,依次将每个语音序列的高维特征向量输入至语音识别模型中,得到每个语音序列对应的文本序列;
基于得到的多个文本序列和每个文本序列对应的切分次序,确定待识别语音的文本信息。
2.根据权利要求1所述的语音识别方法,其特征在于,根据以下步骤确定每个语音序列对应的高维特征向量:
对每个语音序列按照预设长度进行分帧,以及对分帧后的该语音序列进行加窗处理,得到每个语音序列对应的语谱图信息;
从所述语谱图信息中逐帧提取语音特征,得到所述每个语音序列对应的语音特征向量;
对所述语音特征向量进行编码,得到每个语音序列对应的高维特征向量。
3.根据权利要求1所述的语音识别方法,其特征在于,针对每个语音序列,所述按照切分次序,依次将每个语音序列的高维特征向量输入至语音识别模型中,得到每个语音序列对应的文本序列,包括:
按照切分次序,依次将待处理的语音序列确定为当前语音序列,以及将当前语音序列对应的高维特征向量确定为当前语音向量;
获取与所述当前语音序列对应的初始状态向量;
将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中,得到所述当前语音序列的文本序列。
4.根据权利要求3所述的语音识别方法,其特征在于,所述初始状态向量为在切分次序上,排在所述当前语音序列之前的前一个语音序列输入至所述语音识别模型后,输出的中间状态向量。
5.根据权利要求4所述的语音识别方法,其特征在于,当所述当前语音序列为在切分次序上的第一个语音序列时,所述初始状态向量为预设状态向量。
6.根据权利要求3所述的语音识别方法,其特征在于,所述将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中,得到所述当前语音序列的文本序列,包括:
将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中,得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重,以及中间状态向量;
基于得到的位置权重和所述当前语音向量,确定出用于解码处理的中间语音向量;
将确定出的中间语音向量作为所述当前语音向量,并将得到的中间状态向量作为所述初始状态向量,继续进行解码,直至预设次数后停止解码;
基于解码得到的多个中间文本向量和每个中间文本向量的位置权重,...
【专利技术属性】
技术研发人员:蒋栋蔚,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。