语音识别的方法及装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：28627727 阅读：15 留言：0更新日期：2021-05-28 16:24

本公开的实施例提供了语音识别的方法及装置、计算机可读存储介质和电子设备。该方法包括：获取语音数据的原始音频特征序列；根据预设的跳帧数，对所述原始音频特征序列进行跳帧处理，得到跳帧后的特征序列；将所述跳帧后的特征序列输入神经网络，以得到语音识别的结果；其中，所述神经网络中包括音频特征的池化操作。本公开技术方案能够实现加块识别效率，在减少计算量的基础上，保持识别准确率不下降。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别的方法及装置、电子设备和计算机可读存储介质
本公开涉及计算机
，特别涉及语音识别的方法及装置、电子设备和计算机可读存储介质。
技术介绍
目前，语音识别的场景越来越多，而且场景对语音识别的速度要求也越来越高。其中，当前加速语音识别系统(automaticspeechrecognition，ASR)中神经网络模型的推理，一般采用以下方式：在神经网络计算的过程中，采用跳帧的方法，舍弃部分音频特征，减少输入音频特征序列的长度，神经网络模型计算量自然随之下降，达到加速推理目的。但是，跳帧的方法对于跳帧数量，即舍弃音频特征的比例有着敏感的限制。一般以音素为建模单元的语音识别系统，跳帧数量上限为3。以字为建模单元的，跳帧数量上限不超过5。更高的跳帧数量，会导致识别准确率急剧下降。所以，目前语音加速推理的方案存在以下缺点：加速推理的效果不明显，加速上限较低；对神经网络本身改动较大，否则可能造成准确率损失，普适性较差。
技术实现思路
本公开的目的在于提供一种语音识别的方法及装置、电子设备和计算机可读存储介质，进而至少在一定程度上加速了语音的识别，以及减少计算量的基础上，保持识别准确率不下降。本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。根据本公开的第一方面，提供语音识别的方法，包括：获取语音数据的原始音频特征序列；根据预设的跳帧数，对所述原始音频特征序列进行跳帧处理，得到跳帧后的特征序列；将所述跳帧后的特征序列输入神...

【技术保护点】
1.一种语音识别的方法，其特征在于，包括：/n获取语音数据的原始音频特征序列；/n根据预设的跳帧数，对所述原始音频特征序列进行跳帧处理，得到跳帧后的特征序列；/n将所述跳帧后的特征序列输入神经网络，以得到语音识别的结果；其中，所述神经网络中包括音频特征的池化操作。/n

【技术特征摘要】
1.一种语音识别的方法，其特征在于，包括：
获取语音数据的原始音频特征序列；
根据预设的跳帧数，对所述原始音频特征序列进行跳帧处理，得到跳帧后的特征序列；
将所述跳帧后的特征序列输入神经网络，以得到语音识别的结果；其中，所述神经网络中包括音频特征的池化操作。

2.根据权利要求1所述的方法，其特征在于，将所述跳帧后的特征序列输入神经网络，以得到语音识别的结果，包括：
将所述跳帧后的特征序列输入神经网络的第一部分神经网络隐层，得到中间态特征序列；
对所述中间态特征序列进行池化操作，得到池化后的特征序列；
将所述池化后的特征序列输入所述神经网络的第二部分神经网络隐层，以得到语音识别的结果。

3.根据权利要求2所述的方法，其特征在于，对所述中间态特征序列进行池化操作，得到池化后的特征序列，包括：
确定池化操作的参数以及池化操作算法，所述参数至少包括尺寸和步长，所述池化操作算法包括平均池化和最大值池化；
根据所述参数以及池化操作算法，对所述中间态特征序列进行时间维度上的池化操作，得到池化后的特征序列。

4.根据权利要求3所述的方法，其特征在于，将所述跳帧后的特征序列输入神经网络，以得到语音识别的结果，还包括：
根据所述预设的跳帧数和/或所述池化操作的参数，确定所述神经网络的输出层的维度；
根据所述输出层的维度，得到所述语音识别的结果。

5.根据权利要求2-4任一项所述的方法，其特征在于，所述第二部分神经网络隐层的数量与所述第一部分神经网络隐层的数量相同。

6.一种语音识别的装置，其特征在于，包括：
获取模块，用于获取语音数据的原始音频特征序列；
跳帧模块，用...

【专利技术属性】
技术研发人员：李旭，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人