语音识别方法、装置、设备以及存储介质制造方法及图纸

技术编号：32750998 阅读：11 留言：0更新日期：2022-03-20 08:59

公开了一种语音识别方法、装置、设备以及存储介质，所述方法包括：获取语音信号的声学特征，其中，所述语音信号包括多个语音帧；将所述声学特征输入至卷积网络，得到所述声学特征的卷积特征；将所述卷积特征输入长短时记忆LSTM循环神经网络，得到所述LSTM循环神经网络输出的多个语音帧的关联特征；根据设定时长内的多个语音帧的关联特征，得到所述设定时长之前的首个语音帧的音素识别结果。前的首个语音帧的音素识别结果。前的首个语音帧的音素识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备以及存储介质

[0001]本公开涉及计算机
，具体涉及一种语音识别方法、装置、设备以及存储介质。

技术介绍

[0002]语音识别目前在诸多领域均有广泛的应用，如智能音箱、智能车载、智能客服、手机语音助手等生活服务领域。此外，语音识别还被应用于人机交互、虚拟人驱动上，如虚拟主播、虚拟偶像等均采用了相关技术。
[0003]多数涉及语音的场景，诸如语音关键词检测、语音转写、语音信号驱动均需要算法能够实现流式的输入/输出，一方面流式的输入/输出符合人脑的理解流程，并且这也是部分实时应用场景的刚需。例如在语音转写过程中，伴随着语音信号的输入，读者希望看到的是实时的文字输出，而不是一段语音数据输入之后，再一起出现数十甚至数百个文字。
[0004]因此，如何能够更好地实现语音识别的实时性，是目前需要积极研究的问题。

技术实现思路

[0005]本公开实施例提供一种语音识别方案。
[0006]根据本公开的第一方面，提供一种语音识别方法，所述方法包括：获取语音信号的声学特征，其中，所述语音信号包括多个语音帧；将所述声学特征输入至卷积网络，得到所述声学特征的卷积特征；将所述卷积特征输入长短时记忆LSTM循环神经网络，得到所述LSTM循环神经网络输出的多个语音帧的关联特征；根据设定时长内的多个语音帧的关联特征，得到所述设定时长之前的首个语音帧的音素识别结果。
[0007]在一些实施方式中，所述根据设定时长内的多个语音帧的关联特征，得到所述设定时长之前的首个语音帧的...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取语音信号的声学特征，其中，所述语音信号包括多个语音帧；将所述声学特征输入至卷积网络，得到所述声学特征的卷积特征；将所述卷积特征输入长短时记忆LSTM循环神经网络，得到所述LSTM循环神经网络输出的多个语音帧的关联特征；根据设定时长内的多个语音帧的关联特征，得到所述设定时长之前的首个语音帧的音素识别结果。2.根据权利要求1所述的方法，其特征在于，所述根据设定时长内的多个语音帧的关联特征，得到所述设定时长之前的首个语音帧的音素识别结果，包括：将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列，所述特征队列的最大容量根据所述设定时长确定；在所述特征队列中关联特征的数目达到所述最大容量的情况下，响应于关联特征的进入，输出最先进入所述特征队列的语音帧的关联特征，其中，所述最先进入所述特征队列的语音帧是所述设定时长之前的首个语音帧；根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：在将所述LSTM循环神经网络输出的多个语音帧的关联特征实时输入至特征队列后，将设定数目个特征为零的语音帧输入至所述特征队列中，其中，所述设定数目等于所述特征队列的最大容量。4.根据权利要求3所述的方法，其特征在于，所述根据所述特征队列中的多个语音帧的关联特征确定所述首个语音帧的音素识别结果，包括：将所述首个语音帧的关联特征和所述特征队列中的多个语音帧的关联特征，同时输入至预测网络，所述预测网络根据所述特征队列中的多个语音帧的关联特征，预测得到所述首个语音帧的目标特征；对所述目标特征进行全连接操作，得到所述首个语音帧的音素后验概率。5.根据权利要求1至4任一项所述的方法，其特征在于，所述语音识别方法利用声音编码网络执行，所述声音编码网络至少包括所述LSTM循环声音编码网络、所述卷...

【专利技术属性】
技术研发人员：白佳林，高娜，徐速，吴文岩，钱晨，
申请(专利权)人：深圳市慧鲤科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人