一种语音识别装置、方法、电子设备及存储介质制造方法及图纸

技术编号:26175236 阅读:17 留言:0更新日期:2020-10-31 14:07
本申请提供了一种语音识别装置、方法、电子设备及存储介质,该方法包括:获取待识别语音序列;对待识别语音序列进行分帧处理并基于分帧处理得到的各个语音帧,生成待识别语音序列的高维特征向量;基于上述高维特征向量,启用注意力机制解析待生成的每一个文字在高维特征向量中不同位置的权重值;基于高维特征向量以及待生成的每一个文字在高维特征向量中不同位置的权重值,生成待识别语音序列对应的文字序列。本申请实施例中,基于待识别语音序列的高维特征向量,生成相应的文字序列,简化了语音识别系统结构,提高了语音识别效率;并且,基于注意力机制对高维特征向量进行处理,输出语音序列对应的文字序列,提高了语音识别准确度。

【技术实现步骤摘要】
一种语音识别装置、方法、电子设备及存储介质
本申请涉及语音处理
,具体而言,涉及一种语音识别装置、方法、电子设备及存储介质。
技术介绍
自动语音识别(AutomaticSpeechRecognition,ASR)是实现人机交互的关键技术。随着深度学习技术的发展,基于深度学习的语音识别技术经历了革命性的变化。目前,传统的语音识别技术是基于DNN-HMM(深度神经网络-隐马尔科夫模型)构建语音识别系统,该语音识别系统包括特征提取模块、声学模型、发音字典和语言模型四部分。语音识别系统在接收到待识别语音信号后,由特征提取模块提取了待识别语音信号的语音特征序列,并将提取的语音特征序列输入到声学模型中,实现语音特征序列到音素序列的转换以及特征与音素的对齐;发音字典是连接声学模型和语音模型的桥梁,实现音素序列到单词的映射,语音模型则输出文字信息,实现了语音信号到文字信息的转换。但是,上述DNN-HMM的语音识别系统存在结构复杂,识别效率低,以及识别准确度差的问题。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种语音识别装置、方法、电子设备及存储介质,简化了语音识别系统的结构,加快了语音识别效率,以及提高了识别准确度。第一方面,本申请实施例提供了一种语音识别装置,所述装置包括:获取模块,用于获取待识别语音序列;分帧处理模块,用于对所述获取模块获取的所述待识别语音序列进行分帧处理,得到所述待识别语音序列对应的语音帧;第一生成模块,用于基于所述分帧处理模块分帧处理得到的各个语音帧,生成所述待识别语音序列的高维特征向量;解析模块,用于基于所述第一生成模块生成的所述待识别语音序列的高维特征向量,启用注意力机制解析待生成的每一个文字在所述高维特征向量中不同位置的权重值;第二生成模块,用于基于所述第一生成模块生成的所述高维特征向量以及所述解析模块解析得到的待生成的每一个文字在所述高维特征向量中不同位置的权重值,生成所述待识别语音序列对应的文字序列。结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述第一生成模块具体用于,根据以下步骤基于所述分帧处理模块分帧处理得到的各个语音帧,生成所述待识别语音序列的高维特征向量:对所述分帧处理模块分帧处理得到的各个语音帧进行特征提取,得到各个语音帧对应的第一语音特征向量;针对每一语音帧,基于该语音帧对应的第一语音特征向量以及该语音帧之前的各个语音帧分别对应的第一语音特征向量,生成该语音帧对应的第二语音特征向量;基于所述待识别语音序列中各个语音帧分别对应的第二语音特征向量,生成所述待识别语音序列的高维特征向量。结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述解析模块具体用于,根据以下步骤基于所述第一生成模块生成的所述待识别语音序列的高维特征向量,启用注意力机制解析待生成的每一个文字在所述高维特征向量中不同位置的权重值:针对待生成的每一个文字,选取该文字的前一个文字作为目标文字,基于所述目标文字对应的中间状态向量和该文字对应的高维特征向量,生成该文字对应的中间状态向量;其中,该文字对应的高维特征向量是所述目标文字对应的高维特征向量与所述目标文字在对应的高维特征向量中的权重值进行加权得到的;将该文字对应的中间状态向量输入到多分类激活函数中,得到该文字在该文字对应的高维特征向量中的权重值。结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述解析模块具体用于,根据以下步骤基于所述目标文字对应的中间状态向量和该文字对应的高维特征向量,生成该文字对应的中间状态向量:若该文字对应的高维特征向量的维度与所述目标文字对应的中间状态向量的维度不同,则调整该文字对应的高维特征向量的维度与所述目标文字对应的中间状态向量的维度相同,得到该文字对应的更新后的高维特征向量;将所述目标文字对应的中间状态向量和该文字对应的更新后的高维特征向量进行点乘,得到该文字对应的中间状态向量。结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述获取模块具体用于,根据以下步骤获取待识别语音序列:获取原始语音序列;按照第一预设时间长度,将所述原始语音序列切分为多个语音序列;针对每一个语音序列,将该语音序列以及该语音序列之后的第二预设时间长度的语音序列,作为所述待识别语音序列;其中,所述第二预设时间长度小于所述第一预设时间长度。结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述第一生成模块,还用于根据以下步骤基于所述分帧处理模块分帧处理得到的各个语音帧,生成所述待识别语音序列的高维特征向量:针对任一待识别语音序列,对该待识别语音序列分帧处理得到的各个语音帧进行特征提取,得到各个语音帧对应的第三语音特征向量;针对该待识别语音序列中的每一语音帧,基于该语音帧对应的第三语音特征向量以及该待识别语音序列之前的历史待识别语音序列对应各个文字信息,生成该语音帧对应的第四语音特征向量;基于该待识别语音序列中各个语音帧分别对应的第四语音特征向量,生成该待识别语音序列的高维特征向量。结合第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述解析模块还用于,根据以下步骤基于所述第一生成模块生成的所述待识别语音序列的高维特征向量,启用注意力机制解析待生成的每一个文字在所述高维特征向量中不同位置的权重值:基于所述第一生成模块生成的该待识别语音序列的高维特征向量以及该待识别语音序列之前的历史待识别语音序列对应的各个文字的中间状态向量,启用注意力机制解析该待识别语音序列对应的待生成的每一个文字在所述高维特征向量中不同位置的权重值。结合第一方面的第六种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,其中,所述解析模块具体用于,根据以下步骤基于所述第一生成模块生成的该待识别语音序列的高维特征向量以及该待识别语音序列之前的历史待识别语音序列对应的各个文字的中间状态向量,启用注意力机制解析该待识别语音序列对应的待生成的每一个文字在所述高维特征向量中不同位置的权重值:针对该待识别语音序列对应的待生成的每一个文字,选取该文字的前一个文字作为目标文字,基于所述目标文字对应的中间状态向量、该文字对应的高维特征向量以及该待识别语音序列之前的历史待识别语音序列对应的各个文字的中间状态向量,生成该文字对应的中间状态向量;其中,所述高维特征向量是所述目标文字对应的高维特征向量与所述目标文字在所述高维特征向量中的权重值进行加权得到的;将该文字对应的中间状态向量输入到多分类激活函数中,得到该文字在所述高维特征向量中的权重值。第二方面,本申请实施例还提供了一种语音识别方法,所述方法包括:获取待识别语音序列;对所述待识别语音序列进行分帧处理本文档来自技高网...

【技术保护点】
1.一种语音识别装置,其特征在于,所述装置包括:/n获取模块,用于获取待识别语音序列;/n分帧处理模块,用于对所述获取模块获取的所述待识别语音序列进行分帧处理,得到所述待识别语音序列对应的语音帧;/n第一生成模块,用于基于所述分帧处理模块分帧处理得到的各个语音帧,生成所述待识别语音序列的高维特征向量;/n解析模块,用于基于所述第一生成模块生成的所述待识别语音序列的高维特征向量,启用注意力机制解析待生成的每一个文字在所述高维特征向量中不同位置的权重值;/n第二生成模块,用于基于所述第一生成模块生成的所述高维特征向量以及所述解析模块解析得到的待生成的每一个文字在所述高维特征向量中不同位置的权重值,生成所述待识别语音序列对应的文字序列。/n

【技术特征摘要】
1.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别语音序列;
分帧处理模块,用于对所述获取模块获取的所述待识别语音序列进行分帧处理,得到所述待识别语音序列对应的语音帧;
第一生成模块,用于基于所述分帧处理模块分帧处理得到的各个语音帧,生成所述待识别语音序列的高维特征向量;
解析模块,用于基于所述第一生成模块生成的所述待识别语音序列的高维特征向量,启用注意力机制解析待生成的每一个文字在所述高维特征向量中不同位置的权重值;
第二生成模块,用于基于所述第一生成模块生成的所述高维特征向量以及所述解析模块解析得到的待生成的每一个文字在所述高维特征向量中不同位置的权重值,生成所述待识别语音序列对应的文字序列。


2.根据权利要求1所述的语音识别装置,其特征在于,所述第一生成模块具体用于,根据以下步骤基于所述分帧处理模块分帧处理得到的各个语音帧,生成所述待识别语音序列的高维特征向量:
对所述分帧处理模块分帧处理得到的各个语音帧进行特征提取,得到各个语音帧对应的第一语音特征向量;
针对每一语音帧,基于该语音帧对应的第一语音特征向量以及该语音帧之前的各个语音帧分别对应的第一语音特征向量,生成该语音帧对应的第二语音特征向量;
基于所述待识别语音序列中各个语音帧分别对应的第二语音特征向量,生成所述待识别语音序列的高维特征向量。


3.根据权利要求1所述的语音识别装置,其特征在于,所述解析模块具体用于,根据以下步骤基于所述第一生成模块生成的所述待识别语音序列的高维特征向量,启用注意力机制解析待生成的每一个文字在所述高维特征向量中不同位置的权重值:
针对待生成的每一个文字,选取该文字的前一个文字作为目标文字,基于所述目标文字对应的中间状态向量和该文字对应的高维特征向量,生成该文字对应的中间状态向量;其中,该文字对应的高维特征向量是所述目标文字对应的高维特征向量与所述目标文字在对应的高维特征向量中的权重值进行加权得到的;
将该文字对应的中间状态向量输入到多分类激活函数中,得到该文字在该文字对应的高维特征向量中的权重值。


4.根据权利要求3所述的语音识别装置,其特征在于,所述解析模块具体用于,根据以下步骤基于所述目标文字对应的中间状态向量和该文字对应的高维特征向量,生成该文字对应的中间状态向量:
若该文字对应的高维特征向量的维度与所述目标文字对应的中间状态向量的维度不同,则调整该文字对应的高维特征向量的维度与所述目标文字对应的中间状态向量的维度相同,得到该文字对应的更新后的高维特征向量;
将所述目标文字对应的中间状态向量和该文字对应的更新后的高维特征向量进行点乘,得到该文字对应的中间状态向量。


5.根据权利要求1所述的语音识别装置,其特征在于,所述获取模块具体用于,根据以下步骤获取待识别语音序列:
获取原始语音序列;
按照第一预设时间长度,将所述原始语音序列切分为多个语音序列;
针对每一个语音序列,将该语音序列以及该语音序列之后的第二预设时间长度的语音序列,作为所述待识别语音序列;其中,所述第二预设时间长度小于所述第一预设时间长度。

<...

【专利技术属性】
技术研发人员:蒋栋蔚赵帅江
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1