语音识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：35513154 阅读：23 留言：0更新日期：2022-11-09 14:28

本申请涉及一种语音识别方法、装置、计算机设备和存储介质。所述方法包括：获取待识别语音的当前帧和当前帧之前的历史帧，并将当前帧和当前帧之前的历史帧作为第一分块，进而根据第一分块和目标合成预测器，模拟出第一分块对应的未来帧，从而根据第一分块、未来帧和目标声学模型，确定待识别语音的语音识别结果。采用本方法能够降低识别的延迟时间。采用本方法能够降低识别的延迟时间。采用本方法能够降低识别的延迟时间。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、计算机设备和存储介质

[0001]本申请涉及人工智能
，特别是涉及一种语音识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]自动语音识别(automatic speech recognition,ASR)指的是将语音转录为文本的技术。在实际生产生活环境中，一个功能良好的语音识别系统不仅需要有较高的识别准确率，还需要有较低的识别延迟，即需要语音识别系统在用户讲话的过程中同步进行识别，而不是等到用户讲完后再开始识别。
[0003]为了实现同步识别，目前的语音识别系统都采用分块模型，也就是说，一句话会被划分为多个分块后进行识别。为了提高分块识别的准确率，目前的语音识别方法中会为每个分块附加一定的历史帧和未来帧，以提供该分块的上下文信息。
[0004]然而，现有的基于分块模型中的语音识别方法中，必须等到一定数量的未来帧到达后再能开始识别，从而增加了识别的延迟时间。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够降低识别的延迟时间的语音识别方法、装置、计算机设备和存储介质。
[0006]第一方面，本申请提供了一种语音识别方法。所述方法包括：
[0007]获取待识别语音的当前帧和该当前帧之前的历史帧，并将该当前帧和该当前帧之前的历史帧作为第一分块；
[0008]根据该第一分块和目标合成预测器，模拟出该第一分块对应的未来帧；
[0009]根据该第一分块、该未来帧和目标声学模型，确定该待识别语音的语音识别结果...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别语音的当前帧和所述当前帧之前的历史帧，并将所述当前帧和所述当前帧之前的历史帧作为第一分块；根据所述第一分块和目标合成预测器，模拟出所述第一分块对应的未来帧；根据所述第一分块、所述未来帧和目标声学模型，确定所述待识别语音的语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一分块和目标合成预测器，模拟所述第一分块对应的未来帧，包括：将所述第一分块输入目标合成编码器得到第二分块，其中，所述第二分块为对所述第一分块进行编码处理后得到的分块；将所述第二分块输入所述目标合成预测器，以模拟出所述第一分块对应的未来帧。3.根据权利要求1所述的方法，其特征在于，所述根据所述第一分块、所述未来帧和目标声学模型，确定所述待识别语音的语音识别结果，包括：对所述第一分块和所述未来帧进行拼接处理得到拼接结果；根据所述拼接结果和所述目标声学模型，确定所述语音识别结果。4.根据权利要求1所述的方法，其特征在于，所述第一分块是对所述待识别语音进行分块处理后得到的至少一个分块，各所述第一分块的长度根据预设均匀分布区间确定。5.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取训练样本集；根据所述训练样本集，对初始语音识别模型进行训练得到目标语音识别模型，所述目标语音识别模型包括所述目标合成预测器、所述目标声学模型和所述合成编码器。6.根据权利要求5所述的方法，其特征在于，所述初始语音识别模型包括初始合成预测器、初始声学模型和初始合成编码器，所述根据所述训练样...

【专利技术属性】
技术研发人员：欧智坚，安柯宇，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人