流式语音识别的方法、训练语音识别模型的方法及装置制造方法及图纸

技术编号:38651903 阅读:14 留言:0更新日期:2023-09-02 22:40
本申请实施例公开了一种流式语音识别的方法、训练语音识别模型的方法及装置。其中方法包括:获取语音音频流;将利用第一时长单元对语音音频流进行分块得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果用以展示;获取对语音音频流进行编码得到的各帧的隐向量,利用隐向量预测语音音频流对应的第一序列,第一序列包含语音音频流中各帧的权重值;利用第一序列对语音音频流进行切分得到连续的第二音频分块;将连续的第二音频分块输入第二语音识别模型,得到各第二音频分块的识别结果,利用各第二音频分块的识别结果更新已展示的对应第一音频分块的识别结果。本申请改善了实时语音识别的显示效果,提升用户体验。升用户体验。升用户体验。

【技术实现步骤摘要】
流式语音识别的方法、训练语音识别模型的方法及装置


[0001]本申请涉及语音处理
,特别是涉及一种流式语音识别的方法、训练语音识别模型的方法及装置。

技术介绍

[0002]流式ASR(AutomaticSpeechRecognition,语音识别)又称为实时语音识别,是一种实时将语音音频转化为文字的技术,达到“边说边在屏幕上出文字”的效果。当前实时语音识别产品主要分为两种技术路线:
[0003]第一种是使用低延迟的语音识别模型输出语音识别结果。但低延迟的语音识别模型为了保证低延迟的上屏体验,以较短时长的音频分块作为一个单元进行编解码,从而得到较短时长的音频分块的识别结果。这种较短时长的音频分块使得低延迟的语音识别模型在进行编解码时依赖的上下文信息的时长较短,必然带来的识别准确率较低。
[0004]第二种是使用低延迟的语音识别模型和高延迟的语音识别模型相结合的方式,由低延迟的语言识别模型实时输出较短时长的音频分块对应的识别结果,由高延迟的语音识别模型对输入的音频进行较长时长的音频分块进行语音识别,然后利用较长时长的音频分块对应的识别结果更新低延迟的语音识别模型之前识别得到的结果。这样一方面可以保证识别结果的实时显示,另一方面又能够在一段时长后更新为更准确的识别结果。这种方式下,如何对音频进行合理的分割,使得高延迟的语音识别模型能够合理地更新显示的识别结果,保证用户体验是亟待解决的问题。

技术实现思路

[0005]有鉴于此,本申请提供了一种流式语音识别的方法、训练语音识别模型的方法及装置,用以提高语音识别结果的显示效果,提升用户体验。
[0006]本申请提供了如下方案:
[0007]第一方面,提供了一种流式语音识别的方法,所述方法包括:
[0008]获取语音音频流;
[0009]将按照第一时长对所述语音音频流进行切分得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果用以展示;
[0010]获取对所述语音音频流进行编码得到的各帧的隐向量,利用所述隐向量预测所述语音音频流对应的第一序列,所述第一序列包含所述语音音频流中各帧的权重值,所述权重值用以表征对应帧包含的声学信息量;
[0011]利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块;
[0012]将所述连续的第二音频分块输入第二语音识别模型,得到各第二音频分块的识别结果,利用所述各第二音频分块的识别结果更新已展示的对应第一音频分块的识别结果。
[0013]根据本申请实施例中一可实现的方式,对所述语音音频流进行编码的操作由所述第一语音识别模型中的编码模块执行,利用所述隐向量预测所述语音音频流对应的第一序
列的操作由所述第一语音识别模型中的预测模块执行。
[0014]根据本申请实施例中一可实现的方式,利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块包括:
[0015]使用全1卷积核对所述第一序列进行一维卷积处理,得到第二序列;
[0016]在所述第二序列中对应取值小于或等于预设第一阈值的帧位置对所述语音音频流进行切分,得到连续的第二音频分块。
[0017]根据本申请实施例中一可实现的方式,在对所述第一序列进行卷积处理之前,还包括:对所述第一序列进行平滑处理,以将所述第一序列中小于或等于预设第二阈值的权重值设置为0;
[0018]所述预设第一阈值为0。
[0019]根据本申请实施例中一可实现的方式,在所述第二序列中对应取值小于或等于预设第一阈值的帧位置对所述语音音频流进行切分包括:
[0020]若所述第二序列中存在连续多个帧的取值小于或等于预设第一阈值,则在所述连续多个帧中的一个帧位置对所述语音音频流进行切分。
[0021]根据本申请实施例中一可实现的方式,若所述第二序列中从最新的切分位置开始超过预设第二时长未出现取值小于或等于预设第一阈值的帧,则从距离所述最新的切分位置预设第二时长的位置对所述语音音频流进行切分;
[0022]其中所述第二时长大于所述第一时长。
[0023]根据本申请实施例中一可实现的方式,将所述连续的第二音频分块输入第二语音识别模型包括:
[0024]将所述连续的第二音频分块的声学特征以及所述第一语音识别模型中编码模块输出的隐向量表示进行拼接,将拼接得到的特征表示进行降采样后输入所述第二语音识别模型。
[0025]第二方面,提供了一种流式语音识别的方法,所述方法包括:
[0026]获取实时会议产生的语音音频流;
[0027]将按照第一时长对所述语音音频流进行切分得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果用以在所述实时会议的用户端展示;
[0028]获取对所述语音音频流进行编码得到的各帧的隐向量,利用所述隐向量预测所述语音音频流对应的第一序列,所述第一序列包含所述语音音频流中各帧的权重值,所述权重值用以表征对应帧包含的声学信息量;
[0029]利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块;
[0030]将所述连续的第二音频分块输入第二语音识别模型,得到各第二音频分块的识别结果,利用所述各第二音频分块的识别结果更新所述实时会议的用户端已展示的对应第一音频分块的识别结果。
[0031]第三方面,提供了一种流式语音识别的方法,由云端服务器执行,所述方法包括:
[0032]获取来自终端设备的语音音频流;
[0033]将按照第一时长对所述语音音频流进行切分得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果,将所述各第一音频分块的识别结果发送给所述终端设备进行展示;
[0034]获取对所述语音音频流进行编码得到的各帧的隐向量,利用所述隐向量预测所述语音音频流对应的第一序列,所述第一序列包含所述语音音频流中各帧的权重值,所述权重值用以表征对应帧包含的声学信息量;
[0035]利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块;
[0036]将所述连续的第二音频分块输入第二语音识别模型,得到各第二音频分块的识别结果,利用所述各第二音频分块的识别结果更新所述终端设备已展示的对应第一音频分块的识别结果。
[0037]第四方面,提供了一种训练语音识别模型的方法,所述方法包括:
[0038]获取包含多个训练样本的训练数据,所述训练样本包括语音音频样本以及该语音音频样本对应的识别结果标签;
[0039]利用所述训练数据训练第二语音识别模型,所述训练包括:获取对所述语音音频样本进行编码得到的各帧的隐向量,利用所述隐向量预测所述语音音频样本对应的第一序列,所述第一序列包含所述语音音频样本中各帧的权重值,所述权重值用以表征对应帧包含的声学信息量;利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块;将所述连续的第二音频分块输入第二语音识别模型,获取所述第二语音识别模型得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流式语音识别的方法,其特征在于,所述方法包括:获取语音音频流;将按照第一时长对所述语音音频流进行切分得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果用以展示;获取对所述语音音频流进行编码得到的各帧的隐向量,利用所述隐向量预测所述语音音频流对应的第一序列,所述第一序列包含所述语音音频流中各帧的权重值,所述权重值用以表征对应帧包含的声学信息量;利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块;将所述连续的第二音频分块输入第二语音识别模型,得到各第二音频分块的识别结果,利用所述各第二音频分块的识别结果更新已展示的对应第一音频分块的识别结果。2.根据权利要求1所述的方法,其特征在于,对所述语音音频流进行编码的操作由所述第一语音识别模型中的编码模块执行,利用所述隐向量预测所述语音音频流对应的第一序列的操作由所述第一语音识别模型中的预测模块执行。3.根据权利要求1所述的方法,其特征在于,利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块包括:使用全1卷积核对所述第一序列进行一维卷积处理,得到第二序列;在所述第二序列中对应取值小于或等于预设第一阈值的帧位置对所述语音音频流进行切分,得到连续的第二音频分块。4.根据权利要求3所述的方法,其特征在于,在对所述第一序列进行卷积处理之前,还包括:对所述第一序列进行平滑处理,以将所述第一序列中小于或等于预设第二阈值的权重值设置为0;所述预设第一阈值为0。5.根据权利要求3所述的方法,其特征在于,在所述第二序列中对应取值小于或等于预设第一阈值的帧位置对所述语音音频流进行切分包括:若所述第二序列中存在连续多个帧的取值小于或等于预设第一阈值,则在所述连续多个帧中的一个帧位置对所述语音音频流进行切分。6.根据权利要求3所述的方法,其特征在于,若所述第二序列中从最新的切分位置开始超过预设第二时长未出现取值小于或等于预设第一阈值的帧,则从距离所述最新的切分位置预设第二时长的位置对所述语音音频流进行切分;其中所述第二时长大于所述第一时长。7.根据权利要求1所述的方法,其特征在于,将所述连续的第二音频分块输入第二语音识别模型包括:将所述连续的第二音频分块的声学特征以及所述第一语音识别模型中编码模块输出的隐向量表示进行拼接,将拼接得到的特征表示进行降采样后输入所述第二语音识别模型。8.一种流式语音识别的方法,其特征在于,所述方法包括:获取实时会议产生的语音音频流;将按照第一时长对所述语音音频流进行切分得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果用以在所述实时会议的用户端展示;
获取对所述语音音频流进行编码得到的各帧的隐向量,利用所述隐向量预测所述语音音频流对应的第一序列,所述第一序列包含所述语音音频流中各帧的权重值,所述权重值用以表征对应帧包含的声学信息量;利用所述第一序列对所述语音音频流进行切分得到连续的第二音频分块;将所述连续的第二音频分块输入第二语音识别模型,得到各第二音频分块的识别结果,利用所述各第二音频分块的识别结果更新所述实时会议的用户端已展示的对应第一音频分块的识别结果。9.一种流式语音识别的方法,由云端服务器执行,其特征在于,所述方法包括:获取来自终端设备的语音音频流;将按照第一时长对所述语音音频流进行切分得到的连续第一音频分块输入第一语音识别模型,得到各第一音频分块的识别结果,将所述各第一音频分块的识别结果发送给所...

【专利技术属性】
技术研发人员:舒钰淳罗浩能张仕良
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1