一种流式端到端语音识别模型训练和解码方法技术

技术编号:24891326 阅读:34 留言:0更新日期:2020-07-14 18:17
本发明专利技术属于电子信号处理技术领域,公开一种流式端到端语音识别模型的训练方法和解码方法,第一阶段采用交叉熵损失函数进行优化,第二阶段模型参数保持不变,继续使用负对数损失函数进行优化,第二阶段输入的不是整段的语音而是固定长度的语音片段。解码过程从音频采集器中以流式的方式读取语音数据,每0.4秒就将存储的语音提交给处理器;对固定长度的语音提取特征,得到语音特征序列;将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测,直到预测得到一个空格;重复上述步骤直到输入语音结束并解码得到最后一个空格标记。本发明专利技术解决了端到端语音识别模型无法直接应用于具有很高实时性要求的流式语音识别任务的问题。

【技术实现步骤摘要】
一种流式端到端语音识别模型训练和解码方法
本专利技术涉及电子信号处理
,特别是指一种流式端到端语音识别模型的训练和解码方法。
技术介绍
语音识别作为人机交互的入口,是人工智能领域中一个重要的研究方向。不同于传统的基于高斯混合模型-隐马尔科夫模型的混合模型(GMM-HMM)的语音识别方法,端到端语音识别丢弃了发音词典、语言模型和解码网络,直接实现了音频特征序列到文字序列的转换。基于注意力机制的序列到序列的模型作为一种端到端模型,具有极强的序列建模能力。基于注意力机制的序列到序列模型在识别一段语音的内容时,要求输入整段语音进行输入。这一特点严重影响了基于注意力机制的序列到序列模型被应用于流式语音识别任务。流式语音识别任务的典型特点是要求语音识别具有很高的实时性,要求能做到边说话边识别。
技术实现思路
本专利技术提出一种流式端到端语音识别模型的训练和解码方法,解决了现有技术中端到端语音模型要求完整的语音输入,无法直接应用于流式语音识别任务的问题。本专利技术的技术方案是这样实现的:一种流式端到端语音识别模型的训本文档来自技高网...

【技术保护点】
1.一种流式端到端语音识别模型的训练方法,其特征在于,包括以下步骤:/n步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;/n步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;/n步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布;/n步骤S400,基于输出概率分布计算交叉熵损失;/n步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;/n步骤S600,在第一阶段训练...

【技术特征摘要】
1.一种流式端到端语音识别模型的训练方法,其特征在于,包括以下步骤:
步骤S100,获取语音训练数据和对应的文本标注训练数据,并提取所述语音训练数据的特征,得到语音特征序列;
步骤S200,将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中,输出声学编码状态序列;
步骤S300,将语音对应文本序列和声学编码状态序列输入到解码器中,并计算输出概率分布;
步骤S400,基于输出概率分布计算交叉熵损失;
步骤S500,循环执行步骤S200-S500,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成第一阶段的模型训练;
步骤S600,在第一阶段训练模型的基础上,将输入的语音分成N个固定长度的片段,然后依次输入编码器中,分别计算得到N个固定长度的片段上的声学编码状态序列;
步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中,输入得到一个概率分布网络;
步骤S800,概率分布网络中存在多条对齐路径,依据前后向算法,计算得到所有可行路径的概率和,然后计算路径概率和的负对数损失,并计算参数对应的梯度,进行反向传播;
步骤S900,循环执行步骤S600-S800,直至达到预设的训练结束条件,得到训练好的端到端语音识别模型,至此完成全部的模型训练。


2.根据权利要求1所述的流式端到端语音识别模型的训练方法,其特征在于,所述流式端到端语音识别模型基于自注意力变换网络构建,其包括基于自注意力机制或者基于长短时记忆网络或者卷积网络的声学编码器和基于自注意力机制或者基于长短时记忆网络或者卷积网络的解码器;所述基于自注意力机制的声学编码器其结构为6层自注意力编码模块;所述基于自注意力机制的解码器其结构为6层...

【专利技术属性】
技术研发人员:温正棋田正坤
申请(专利权)人:极限元杭州智能科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1