【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质
本专利技术涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
技术介绍
随着人工智能技术的不断突破,用户对于交互过程中语音识别的及时响应提出了更高的要求,流式语音识别应运而生。流式语音识别是指对音频进行流式识别,识别完成即返回语音对应的文本,简单来说就是在用户语音输入的过程中也有识别结果的展示。目前主流的技术就是用两个模型来分别实现流式识别结果的产生和最终识别结果的输出。为了实现用户请求的快速响应,必须将这两个模型都放在云端的GPU服务器上进行计算,成本极其高昂。
技术实现思路
本专利技术实施例提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有的语音识别需要两个模型分别实现流式识别结果和最终识别结果的输出,导致成本高昂的问题。第一方面,本专利技术实施例提供一种语音识别方法,包括:实时获取待识别的语音数据流;将所述语音数据流输入至层次式语音识别模型中,得到所述层次式语音识别模型实时输出的流式识别结果,以 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n实时获取待识别的语音数据流;/n将所述语音数据流输入至层次式语音识别模型中,得到所述层次式语音识别模型实时输出的流式识别结果,以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果;其中,所述层次式语音识别模型是基于样本语音数据流,及其样本流式识别结果和样本最终识别结果训练得到的。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
实时获取待识别的语音数据流;
将所述语音数据流输入至层次式语音识别模型中,得到所述层次式语音识别模型实时输出的流式识别结果,以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果;其中,所述层次式语音识别模型是基于样本语音数据流,及其样本流式识别结果和样本最终识别结果训练得到的。
2.根据权利要求1所述的语音识别方法,其特征在于,所述层次式语音识别模型包括层次式识别层、流式结果输出层和最终结果输出层;
对应地,所述将所述语音数据流输入至层次式语音识别模型中,得到所述层次式语音识别模型实时输出的流式识别结果,以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果,具体包括:
将所述语音数据流输入至所述层次式识别层,得到所述层次式识别层输出的流式状态后验概率,以及词序列;
将所述流式状态后验概率输入至所述流式结果输出层,得到所述流式结果输出层输出的所述流式识别结果;
将所述词序列输入至所述最终结果输出层,得到所述最终结果输出层在判断获知所述语音数据流结束时输出的所述最终识别结果。
3.根据权利要求2所述的语音识别方法,其特征在于,所述层次式识别层包括编码层、浅层特征输出层和深层结果输出层;
对应地,所述将所述语音数据流输入至层次式识别层中,得到所述层次式识别层输出的流式状态后验概率,以及词序列,具体包括:
将所述语音数据流中当前时刻相对应的多个连续的语音帧的声学特征输入至所述编码层,得到所述编码层输出的每一语音帧的隐层向量;
将所述每一语音帧的隐层向量输入至所述浅层特征输出层,得到所述浅层特征输出层输出的当前时刻的状态后验概率;
将所述每一语音帧的隐层向量输入至所述深层结果输出层,得到所述深层结果输出层输出的当前时刻的输出词结果。
4.根据权利要求3所述的语音识别方法,其特征在于,所述深层结果输出层包括注意力层、解码层和结果输出层;
对应地,所述将所述每一语音帧的隐层向量输入至所述深层结果输出层,得到所述深层结果输出层输出的当前时刻的输出词结果,具体包括:
将所述每一语音帧的隐层向量与上一时刻的分词特征向量输入至所述注意力层,得到所述注意力层输出的每一语音帧的重要度权重;
将所述每一语音帧的隐层向量和重要度权重输入至所述解码层,得到所述解码层输出的当前时刻的分词特征向量;
将所述当前时刻的分词特征向量输入至所述结果输出层,得到所述结果输出层输出的当前时刻的输出词结果。
5.根据权利要求4所述的语音识别方法,其特征在于,所述将所述每一语音帧的隐层向量输入至所述注意力层,得到所述注意力层输出的每一语音帧的重要度权重,具体包括:
基于任一语音帧的隐层向量与上一时刻的分词特征向量,确定所述任一语音帧的注意力值;
基于每一语音帧的注意力值,确定每一语音帧的重要度权重。
6.根据权利要求2所述的语音识别方法,其特征在于,所述词序列中任一时刻的输出词结果包括多个候选输出词;
对应地,所述将所述词序列...
【专利技术属性】
技术研发人员:吴思远,潘嘉,刘聪,胡国平,胡郁,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。