一种流式端到端语音识别模型、电子设备和存储介质制造技术

技术编号:34804740 阅读:57 留言:0更新日期:2022-09-03 20:12
本申请公开了一种流式端到端语音识别模型和电子设备,该模型用于配置于电子设备,具体包括由联合网络整合的解码器和编码器。解码器包括VGG(Visual Geometry Group,视觉几何组)模块,该VGG模块用于采用流式卷积的方法对输入的音频信号进行卷积处理;编码器包括LSTM神经网络。由于本方案采用流式卷积,不依赖于下一帧信息,因此能够消除卷积模型的时延问题,从而降低了语音识别的时延,进而能够提高用户的产品体验。用户的产品体验。用户的产品体验。

【技术实现步骤摘要】
一种流式端到端语音识别模型、电子设备和存储介质


[0001]本申请涉及语音识别
,更具体地说,涉及一种流式端到端语音识别模型、电子设备和存储介质。

技术介绍

[0002]语音信号是人类社会中最普遍和常用的信号之一,它是人们表达、交流和传播信息的重要途径。在当今信息爆炸的时代,互联网和电话信道中无时无刻不在产生海量语音数据,为了更加高效地对大规模语音信号进行识别、分类和检索,自动语音识别(Automatic Speech Recognition,ASR)的需求变得更加的迫切。
[0003]相比与传统的基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音识别系统相比,流式端到端语音识别模型把声学模型、发音字典和语音模型全部融合至一套神经网络中,让模型变得更加简洁的同时也更便于对参数直接优化。除此之外,其还具有更强的通用性,更快的实时性,既减少了对专业语言学知识的依赖,又提升了用户对语音产品互动时的体验感。在训练时,训练数据不需要对齐信息,可直接将带标注的语音直接用于训练;推理时不需要关注未来语音帧,可直接对当前帧本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种流式端到端语音识别模型,用于配置于电子设备,其特征在于,所述流式端到端语音识别模型包括由联合网络整合的解码器和编码器,其中:所述解码器包括VGG(Visual Geometry Group,视觉几何组)模块,所述VGG模块用于采用流式卷积的方法对输入的音频信号进行卷积处理;所述编码器包括LSTM(Long Short

Term Memory,长短时记忆)神经网络。2.如权利要求1所述的流式端到端语音识别模型,其特征在于,所述解码器包括多个输出信道,每个所述输出信道基于不...

【专利技术属性】
技术研发人员:吴明辉唐海桃孙磊方昕宋彦
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1