语音交互及语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号:33325777 阅读:9 留言:0更新日期:2022-05-08 09:04
本发明专利技术实施例提供一种语音交互及语音识别方法、装置、设备和存储介质,该方法包括:通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量;通过流式语音识别模型中的第一解码网络对当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出多个语音信号分块对应的第一文字。将多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过离线语音识别模型输出与多个语音信号分块对应的第二文字,以该第二文字更新流式语音识别模型输出的与述多个语音信号分块对应的第一文字,以保证流式语音识别的实时性和识别准确率。的实时性和识别准确率。的实时性和识别准确率。

【技术实现步骤摘要】
语音交互及语音识别方法、装置、设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语音交互及语音识别方法、装置、设备和存储介质。

技术介绍

[0002]语音识别技术可以实现将人所说的语音转成机器可以识别的文本。目前,已经存在一些端到端(End2End)的语音识别模型,用于提供语音识别服务。与端到端的语音识别模型相对的是非端到端的语音识别模型,其包括独立的声学模型和语言模型,可先通过声学模型识别出发音序列,然后语言模型结合预设的发音词典确定文本序列。端到端的语音识别模型,可采用将声学模型和语言模型合二为一的语音识别框架,而且不需要发音词典,这样就不存在模块间的误差传播效应,可以显著提升语音识别性能以及降低训练复杂度。
[0003]从应用场景上来分,目前,端到端的语音识别模型可以包括两大类,一类是适用于离线语音识别的模型,称为离线语音识别模型(或者离线端到端语音识别模型),另一类是适用于流式语音或者说实时语音识别的模型,称为流式语音识别模型(或者流式端到端语音识别模型)。简单来说,所谓流式语音识别,是指随着用户的输出语音实时地(即在很短延时内)进行语音识别,即边说边进行语音识别的过程;所谓离线语音识别,是指在用户语音输出完毕之后,才对采集的用户语音进行语音识别的过程。
[0004]在针对流式输出的语音进行语音识别的过程中,一方面,对时延会有较强的要求,另一方面,对识别准确率也会有较高要求。而目前,延时和识别准确率往往是一对相对立的指标,即往往牺牲识别准确率来换取较低的时延,或者,往往牺牲时延来换取较高的识别准确率,因此,如何既保证时延又保证识别准确率,是亟待解决的问题。

技术实现思路

[0005]本专利技术实施例提供一种语音交互及语音识别方法、装置、设备和存储介质,可以同时保证语音识别的时延和识别准确率。
[0006]第一方面,本专利技术实施例提供一种语音识别方法,该方法包括:
[0007]通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量,所述多个语音信号分块对应于一段连续语音,每个语音信号分块具有预设时长;
[0008]通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出所述多个语音信号分块对应的第一文字;
[0009]将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字;
[0010]根据所述第二文字更新所述流式语音识别模型输出的与所述多个语音信号分块对应的第一文字。
[0011]第二方面,本专利技术实施例提供一种语音识别装置,该装置包括:
[0012]流式编码模块,用于通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量,所述多个语音信号分块对应于一段连续语音,每个语音信号分块具有预设时长;
[0013]流式解码模块,用于通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出所述多个语音信号分块对应的第一文字;
[0014]离线识别模块,用于将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字;
[0015]输出更新模块,用于根据所述第二文字更新所述流式语音识别模型输出的与所述多个语音信号分块对应的第一文字。
[0016]第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的语音识别方法。
[0017]第四方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的语音识别方法。
[0018]第五方面,本专利技术实施例提供一种语音交互方法,该方法包括:
[0019]采集语音信号流中的语音信号分块,每个语音信号分块具有预设时长;
[0020]将采集的语音信号分块上传至服务端,以使所述服务端通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量,通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出所述多个语音信号分块对应的第一文字,以及将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字;所述多个语音信号分块对应于一段连续语音;
[0021]显示接收自所述服务端的所述第一文字;
[0022]根据接收自所述服务端的所述第二文字,更新所述第一文字。
[0023]第六方面,本专利技术实施例提供一种语音交互装置,该装置包括:
[0024]采集模块,用于采集语音信号流中的语音信号分块,每个语音信号分块具有预设时长;
[0025]发送模块,用于将采集的语音信号分块上传至服务端,以使所述服务端通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量,通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出所述多个语音信号分块对应的第一文字,以及将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字;所述多个语音信号分块对应于一段连续语音;
[0026]显示模块,用于显示接收自所述服务端的所述第一文字;以及,根据接收自所述服务端的所述第二文字,更新所述第一文字。
[0027]第七方面,本专利技术实施例提供一种语音交互设备,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第五方面所述的语音交互方法。
[0028]第八方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被语音交互设备的处理器执行时,使所述处理器至少可以实现如第五方面所述的语音交互方法。
[0029]第九方面,本专利技术实施例提供一种语音交互方法,该方法包括:
[0030]获取会议语音信号流中的语音信号分块,每个语音信号分块具有预设时长;
[0031]通过流式语音识别模型中的第一编码网络对当前产生的语音信号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量,所述多个语音信号分块对应于一段连续语音,每个语音信号分块具有预设时长;通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出所述多个语音信号分块对应的第一文字;将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字;根据所述第二文字更新所述流式语音识别模型输出的与所述多个语音信号分块对应的第一文字。2.根据权利要求1所述的方法,其特征在于,所述通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,包括:在接收到当前产生的第一语音信号分块时,获取在所述第一语音信号分块之前产生的至少一个第二语音信号分块,将所述第一语音信号分块和所述至少一个第二语音信号分块作为所述多个语音信号分块;获取所述第一语音信号分块的声学特征,以及所述至少一个第二语音信号分块的声学特征;通过所述第一编码网络对所述第一语音信号分块的声学特征和所述至少一个第二语音信号分块的声学特征的拼接结果进行编码,以得到所述第一语音信号分块对应的第一语义向量。3.根据权利要求1所述的方法,其特征在于,对于所述多个语音信号分块中的任一语音信号分块,根据如下方式获取所述任一语音信号分块的声学特征:对所述任一语音信号分块进行分帧处理,以得到多帧语音信号;提取所述多帧语音信号各自对应的声学特征;根据所述多帧语音信号各自对应的声学特征确定所述任一语音信号分块的声学特征。4.根据权利要求2所述的方法,其特征在于,所述流式语音识别模型中包括预测网络和注意力网络;所述通过所述流式语音识别模型中的第一解码网络对当前产生的语音信号分块所对应的第一语义向量进行解码,包括:通过所述预测网络对所述第一语音信号分块对应的第一语义向量进行预测,以获得所述第一语音信号分块中包含的文字数量;通过所述注意力网络确定在每次权重计算过程中所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量的权重以及加权求和结果,并将所述加权求和结果输入至所述第一解码网络,以通过所述第一解码网络输出与所述第一语音信号分块对应的文字,所述文字数量用于约束所述权重计算次数。5.根据权利要求4所述的方法,其特征在于,所述第一语音信号分块中包含的文字数量大于或等于1;所述通过所述注意力网络确定在每次权重计算过程中所述第一语音信号分块和所述
至少一个第二语音信号分块各自对应的第一语义向量的权重以及加权求和结果,并将所述加权求和结果输入至所述第一解码网络,以通过所述第一解码网络输出与所述第一语音信号分块对应的文字,包括:初始化权重计算次数为所述文字数量,迭代执行如下过程,直到所述权重计算次数减为0:若所述权重计算次数不为0,则将所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量以及所述第一解码网络输出的上一个文字输入到所述注意力网络,以使所述注意力网络基于所述上一个文字确定所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量的权重,并根据所述权重确定所述第一语音信号分块和所述至少一个第二语音信号分块各自对应的第一语义向量的加权求和结果,将所述加权求和结果输入至所述第一解码网络;通过所述第一解码网络获取当前输出的文字,并将所述文字输入至所述注意力网络;对所述权重计算次数进行减一。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定与当前的语音识别应用场景对应的时延值,所述预设时长为所述时延值。7.根据权利要求1所述的方法,其特征在于,所述将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,包括:确定由所述第一解码网络依次输出的第一文字构成的文字序列;将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果以及所述文字序列输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字。8.根据权利要求7所述的方法,其特征在于,所述离线语音识别模型中包括第二编码网络、第三编码网络和第二解码网络;所述将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果以及所述文字序列输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字,包括:将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入所述第二编码网络,以通过所述第二编码网络输出所述多个语音信号分块各自对应的第二语义向量;将所述文字序列输入所述第三编码网络,以通过所述第三编码网络输出所述文字序列对应的第三语义向量;将所述多个语音信号分块各自对应的第二语义向量以及所述第三语义向量输入所述第二解码网络,以通过所述第二解码网络输出与所述多个语音信号分块对应的第二文字。9.一种语音识别装置,其特征在于,包括:流式编码模块,用于通过流式语音识别模型中的第一编码网络对当前产生的语音信号分块的声学特征进行编码,以依次得到多个语音信号分块各自对应的第一语义向量,所述多个语音信号分块对应于一段连续语音,每个语音信号分块具有预设时长;流式解码模块,用于通过所述流式语音识别模型中的第一解码网络对所述当前产生的语音信号分块所对应的第一语义向量进行解码,以依次输出所述多个语音信号分块对应的
第一文字;离线识别模块,用于将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字;输出更新模块,用于根据所述第二文字更新所述流式语音识别模型输出的与所述多个语音信号分块对应的第一文字。10.根据权利要求9所述的装置,其特征在于,所述流式编码模块具体用于:在接收到当前产生的第一语音信号分块时,获取在所述第一语音信号分块之前产生的至少一个第二语音信号分块,将所述第一语音信号分块和所述至少一个第二语音信号分块作为所述多个语音信号分块;获取所述第一语音信号分块的声学特征,以及所述至少一个第二语音信号分块的声学特征;通过所述第一编码网络对所述第一语音信号分块的声学特征和所述至少一个第二语音信号分块的声学特征的拼接结果进行编码,以得到所述第一语音信号分块对应的第一语义向量。11.根据权利要求9所述的装置,其特征在于,所述离线识别模块具体用于:确定由所述第一解码网络依次输出的第一文字构成的文字序列;将所述多个语音信号分块各自对应的声学特征和第一语义向量的拼接结果以及所述文字序列输入离线语音识别模型,以通过所述离线语音识别模型输出与所述多个语音信号分块对应的第二文字。12.根据权利要求11所述的装置,其特征在于,所述离线语音识别模型中包括第二编码网络、第三编码网络和...

【专利技术属性】
技术研发人员:高志付张仕良
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1