语音交互及语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号：33325777 阅读：9 留言：0更新日期：2022-05-08 09:04

本发明专利技术实施例提供一种语音交互及语音识别方法、装置、设备和存储介质，该方法包括：通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码，以依次得到多个语音信号分块各自对应的第一语义向量；通过流式语音识别模型中的第一解码网络对当前产生的语音信号分块所对应的第一语义向量进行解码，以依次输出多个语音信号分块对应的第一文字。将多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型，以通过离线语音识别模型输出与多个语音信号分块对应的第二文字，以该第二文字更新流式语音识别模型输出的与述多个语音信号分块对应的第一文字，以保证流式语音识别的实时性和识别准确率。的实时性和识别准确率。的实时性和识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互及语音识别方法、装置、设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种语音交互及语音识别方法、装置、设备和存储介质。

技术介绍

[0002]语音识别技术可以实现将人所说的语音转成机器可以识别的文本。目前，已经存在一些端到端(End2End)的语音识别模型，用于提供语音识别服务。与端到端的语音识别模型相对的是非端到端的语音识别模型，其包括独立的声学模型和语言模型，可先通过声学模型识别出发音序列，然后语言模型结合预设的发音词典确定文本序列。端到端的语音识别模型，可采用将声学模型和语言模型合二为一的语音识别框架，而且不需要发音词典，这样就不存在模块间的误差传播效应，可以显著提升语音识别性能以及降低训练复杂度。
[0003]从应用场景上来分，目前，端到端的语音识别模型可以包括两大类，一类是适用于离线语音识别的模型，称为离线语音识别模型(或者离线端到端语音识别模型)，另一类是适用于流式语音或者说实时语音识别的模型，称为流式语音识别模型(或者流式端到端语音识别模型)。简单来说，所谓流式语音识别，是指随着用户的输出语音实时地(即在很短延时内)进行语音识别，即边说边进行语音识别的过程；所谓离线语音识别，是指在用户语音输出完毕之后，才对采集的用户语音进行语音识别的过程。
[0004]在针对流式输出的语音进行语音识别的过程中，一方面，对时延会有较强的要求，另一方面，对识别准确率也会有较高要求。而目前，延时和识别准确率往往是一对相对立的指标，即往往牺牲识别准确率来换取较低的时延，或者，往往牺...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码，以依次得到多个语音信号分块各自对应的第一语义向量，所述多个语音信号分块对应于一段连续语音，每个语音信号分块具有预设时长；通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码，以依次输出所述多个语音信号分块对应的第一文字；将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型，以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字；根据所述第二文字更新所述流式语音识别模型输出的与所述多个语音信号分块对应的第一文字。2.根据权利要求1所述的方法，其特征在于，所述通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码，包括：在接收到当前产生的第一语音信号分块时，获取在所述第一语音信号分块之前产生的至少一个第二语音信号分块，将所述第一语音信号分块和所述至少一个第二语音信号分块作为所述多个语音信号分块；获取所述第一语音信号分块的声学特征，以及所述至少一个第二语音信号分块的声学特征；通过所述第一编码网络对所述第一语音信号分块的声学特征和所述至少一个第二语音信号分块的声学特征的拼接结果进行编码，以得到所述第一语音信号分块对应的第一语义向量。3.根据权利要求1所述的方法，其特征在于，对于所述多个语音信号分块中的任一语音信号分块，根据如下方式获取所述任一语音信号分块的声学特征：对所述任一语音信号分块进行分帧处理，以得到多帧语音信号；提取所述多帧语音信号各自对应的声学特征；根据所述多帧语音信号各自对应的声学特征确定所述任一语音信号分块的声学特征。4.根据权利要求2所述的方法，其特征在于，所述流式语音识别模型中包括预测网络和注意力网络；所述通过所述流式语音识别模型中的第一解码网络对当前产生的语音信号分块所对应的第一语义向量进行解码，包括：通过所述预测网络对所述第一语音信号分块对应的第一语义向量进行预测，以获得所述第一语音信号分块中包含的文字数量；通过所述注意力网络确定在每次权重计算过程中所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量的权重以及加权求和结果，并将所述加权求和结果输入至所述第一解码网络，以通过所述第一解码网络输出与所述第一语音信号分块对应的文字，所述文字数量用于约束所述权重计算次数。5.根据权利要求4所述的方法，其特征在于，所述第一语音信号分块中包含的文字数量大于或等于1；所述通过所述注意力网络确定在每次权重计算过程中所述第一语音信号分块和所述
至少一个第二语音信号分块各自对应的第一语义向量的权重以及加权求和结果，并将所述加权求和结果输入至所述第一解码网络，以通过所述第一解码网络输出与所述第一语音信号分块对应的文字，包括：初始化权重计算次数为所述文字数量，迭代执行如下过程，直到所述权重计算次数减为0：若所述权重计算次数不为0，则将所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量以及所述第一解码网络输出的上一个文字输入到所述注意力网络，以使所述注意力网络基于所述上一个文字确定所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量的权重，并根据所述权重确定所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量的加权求和结果，将所述加权求和结果输入至所述第一解码网络；通过所述第一解码网络获取当前输出的文字，并将所述文字输入至所述注意力网络；对所述权重计算次数进行减一。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定与当前的语音识别应用场景对应的时延值，所述预设时长为所述时延值。7.根据权利要求1所述的方法，其特征在于，所述将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型，包括：确定由所述第一解码网络依次输出的第一文字构成的文字序列；将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果以及所述文字序列输入离线语音识别模型，以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字。8.根据权利要求7所述的方法，其特征在于，所述离线语音识别模型中包括第二编码网络、第三编码网络和第二解码网络；所述将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果以及所述文字序列输入离线语音识别模型，以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字，包括：将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入所述第二编码网络，以通过所述第二编码网络输出所述多个语音信号分块各自对应的第二语义向量；将所述文字序列输入所述第三编码网络，以通过所述第三编码网络输出所述文字序列对应的第三语义向量；将所述多个语音信号分块各自对应的第二语义向量以及所述第三语义向量输入所述第二解码网络，以通过所述第二解码网络输出与所述多个语音信号分块对应的第二文字。9.一种语音识别装置，其特征在于，包括：流式编码模块，用于通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码，以依次得到多个语音信号分块各自对应的第一语义向量，所述多个语音信号分块对应于一段连续语音，每个语音信号分块具有预设时长；流式解码模块，用于通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码，以依次输出所述多个语音信号分块对应的
第一文字；离线识别模块，用于将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型，以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字；输出更新模块，用于根据所述第二文字更新所述流式语音识别模型输出的与所述多个语音信号分块对应的第一文字。10.根据权利要求9所述的装置，其特征在于，所述流式编码模块具体用于：在接收到当前产生的第一语音信号分块时，获取在所述第一语音信号分块之前产生的至少一个第二语音信号分块，将所述第一语音信号分块和所述至少一个第二语音信号分块作为所述多个语音信号分块；获取所述第一语音信号分块的声学特征，以及所述至少一个第二语音信号分块的声学特征；通过所述第一编码网络对所述第一语音信号分块的声学特征和所述至少一个第二语音信号分块的声学特征的拼接结果进行编码，以得到所述第一语音信号分块对应的第一语义向量。11.根据权利要求9所述的装置，其特征在于，所述离线识别模块具体用于：确定由所述第一解码网络依次输出的第一文字构成的文字序列；将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果以及所述文字序列输入离线语音识别模型，以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字。12.根据权利要求11所述的装置，其特征在于，所述离线语音识别模型中包括第二编码网络、第三编码网络和...

【专利技术属性】
技术研发人员：高志付，张仕良，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人