语音识别方法、装置、设备以及存储介质制造方法及图纸

技术编号:32750998 阅读:11 留言:0更新日期:2022-03-20 08:59
公开了一种语音识别方法、装置、设备以及存储介质,所述方法包括:获取语音信号的声学特征,其中,所述语音信号包括多个语音帧;将所述声学特征输入至卷积网络,得到所述声学特征的卷积特征;将所述卷积特征输入长短时记忆LSTM循环神经网络,得到所述LSTM循环神经网络输出的多个语音帧的关联特征;根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前的首个语音帧的音素识别结果。前的首个语音帧的音素识别结果。前的首个语音帧的音素识别结果。

【技术实现步骤摘要】
语音识别方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,具体涉及一种语音识别方法、装置、设备以及存储介质。

技术介绍

[0002]语音识别目前在诸多领域均有广泛的应用,如智能音箱、智能车载、智能客服、手机语音助手等生活服务领域。此外,语音识别还被应用于人机交互、虚拟人驱动上,如虚拟主播、虚拟偶像等均采用了相关技术。
[0003]多数涉及语音的场景,诸如语音关键词检测、语音转写、语音信号驱动均需要算法能够实现流式的输入/输出,一方面流式的输入/输出符合人脑的理解流程,并且这也是部分实时应用场景的刚需。例如在语音转写过程中,伴随着语音信号的输入,读者希望看到的是实时的文字输出,而不是一段语音数据输入之后,再一起出现数十甚至数百个文字。
[0004]因此,如何能够更好地实现语音识别的实时性,是目前需要积极研究的问题。

技术实现思路

[0005]本公开实施例提供一种语音识别方案。
[0006]根据本公开的第一方面,提供一种语音识别方法,所述方法包括:获取语音信号的声学特征,其中,所述语音信号包括多个语音帧;将所述声学特征输入至卷积网络,得到所述声学特征的卷积特征;将所述卷积特征输入长短时记忆LSTM循环神经网络,得到所述LSTM循环神经网络输出的多个语音帧的关联特征;根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前的首个语音帧的音素识别结果。
[0007]在一些实施方式中,所述根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前的首个语音帧的音素识别结果,包括:将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列,所述特征队列的最大容量根据所述设定时长确定;在所述特征队列中关联特征的数目达到所述最大容量的情况下,响应于关联特征的进入,输出最先进入所述特征队列的语音帧的关联特征,其中,所述最先进入所述特征队列的语音帧是所述设定时长之前的首个语音帧;根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果。
[0008]在一些实施方式中,所述方法还包括:在将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列后,将设定数目个特征为零的语音帧输入至所述特征队列中,其中,所述设定数目等于所述特征队列的最大容量。
[0009]在一些实施方式中,所述根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果,包括:将所述首个语音帧的关联特征和所述特征队列中的多个语音帧的关联特征,同时输入至预测网络,所述预测网络根据所述特征队列中的多个语音帧的关联特征,预测得到所述首个语音帧的目标特征;对所述目标特征进行全连接操作,得到所述首个语音帧的音素后验概率。
[0010]在一些实施方式中,所述语音识别方法利用声音编码网络执行,所述声音编码网络至少包括所述LSTM循环声音编码网络、所述卷积网络和所述预测网络,所述声音编码网络利用三音素样本训练得到。
[0011]在一些实施方式中,所述根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前首个语音帧的音素识别结果,包括:根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前首个语音帧的三音素识别结果;根据所述首个语音帧的三音素识别结果,得到所述首个语音帧的单音素识别结果。
[0012]在一些实施方式中,所述声音编码网络还包括归一化模块,所述归一化模块用于在获取所述声学特征的卷积特征之前,对所述语音信号的声学特征进行归一化操作。
[0013]在一些实施方式中,所述声音编码网络还包括激活模块,所述激活模块用于在将所述卷积特征输入长短时记忆循环神经网络之前,对所述卷积特征进行激活操作。
[0014]在一些实施方式中,所述方法还包括:在得到所述设定时长之前首个语音帧的音素识别结果之后,清除所述设定时长之前的关联特征。
[0015]根据本公开的第二方面,提供一种语音识别装置,所述装置包括:第一获取单元,用于获取语音信号的声学特征,其中,所述语音信号包括多个语音帧;第二获取单元,用于将所述声学特征输入至卷积网络,得到所述声学特征的卷积特征;第三获取单元,用于将所述卷积特征输入长短时记忆LSTM循环神经网络,得到所述LSTM循环神经网络输出的多个语音帧的关联特征;识别单元,用于根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前的首个语音帧的音素识别结果。
[0016]在一些实施方式中,所述识别单元具体用于:将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列,所述特征队列的最大容量根据所述设定时长确定;在所述特征队列中关联特征的数目达到所述最大容量的情况下,响应于关联特征的进入,输出最先进入所述特征队列的语音帧的关联特征,其中,所述最先进入所述特征队列的语音帧是所述设定时长之前的首个语音帧;根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果。
[0017]在一些实施方式中,所述装置还包括输出单元,用于在将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列后,将设定数目个特征为零的语音帧输入至所述特征队列中,其中,所述设定数目等于所述特征队列的最大容量。
[0018]在一些实施方式中,所述识别单元具体用于:将所述首个语音帧的关联特征和所述特征队列中的多个语音帧的关联特征,同时输入至预测网络,所述预测网络根据所述特征队列中的多个语音帧的关联特征,预测得到所述首个语音帧的目标特征;对所述目标特征进行全连接操作,得到所述首个语音帧的音素后验概率。
[0019]在一些实施方式中,所述语音识别装置应用于声音编码网络,所述声音编码网络至少包括所述LSTM循环声音编码网络、所述卷积网络和所述预测网络,所述声音编码网络利用三音素样本训练得到。
[0020]在一些实施方式中,所述识别单元具体用于:根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前首个语音帧的三音素识别结果;根据所述首个语音帧的三音素识别结果,得到所述首个语音帧的单音素识别结果。
[0021]在一些实施方式中,所述声音编码网络还包括归一化模块,所述归一化模块用于
在获取所述声学特征的卷积特征之前,对所述语音信号的声学特征进行归一化操作。
[0022]在一些实施方式中,所述声音编码网络还包括激活模块,所述激活模块用于在将所述卷积特征输入长短时记忆循环神经网络之前,对所述卷积特征进行激活操作。
[0023]在一些实施方式中,所述装置还包括清除单元,用于在得到所述设定时长之前首个语音帧的音素识别结果之后,清除所述设定时长之前的关联特征。
[0024]根据本公开的第三方面,提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的语音识别方法。
[0025]根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取语音信号的声学特征,其中,所述语音信号包括多个语音帧;将所述声学特征输入至卷积网络,得到所述声学特征的卷积特征;将所述卷积特征输入长短时记忆LSTM循环神经网络,得到所述LSTM循环神经网络输出的多个语音帧的关联特征;根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前的首个语音帧的音素识别结果。2.根据权利要求1所述的方法,其特征在于,所述根据设定时长内的多个语音帧的关联特征,得到所述设定时长之前的首个语音帧的音素识别结果,包括:将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列,所述特征队列的最大容量根据所述设定时长确定;在所述特征队列中关联特征的数目达到所述最大容量的情况下,响应于关联特征的进入,输出最先进入所述特征队列的语音帧的关联特征,其中,所述最先进入所述特征队列的语音帧是所述设定时长之前的首个语音帧;根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列后,将设定数目个特征为零的语音帧输入至所述特征队列中,其中,所述设定数目等于所述特征队列的最大容量。4.根据权利要求3所述的方法,其特征在于,所述根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果,包括:将所述首个语音帧的关联特征和所述特征队列中的多个语音帧的关联特征,同时输入至预测网络,所述预测网络根据所述特征队列中的多个语音帧的关联特征,预测得到所述首个语音帧的目标特征;对所述目标特征进行全连接操作,得到所述首个语音帧的音素后验概率。5.根据权利要求1至4任一项所述的方法,其特征在于,所述语音识别方法利用声音编码网络执行,所述声音编码网络至少包括所述LSTM循环声音编码网络、所述卷...

【专利技术属性】
技术研发人员:白佳林高娜徐速吴文岩钱晨
申请(专利权)人:深圳市慧鲤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1