【技术实现步骤摘要】
一种流式端到端语音识别模型、电子设备和存储介质
[0001]本申请涉及语音识别
,更具体地说,涉及一种流式端到端语音识别模型、电子设备和存储介质。
技术介绍
[0002]语音信号是人类社会中最普遍和常用的信号之一,它是人们表达、交流和传播信息的重要途径。在当今信息爆炸的时代,互联网和电话信道中无时无刻不在产生海量语音数据,为了更加高效地对大规模语音信号进行识别、分类和检索,自动语音识别(Automatic Speech Recognition,ASR)的需求变得更加的迫切。
[0003]相比与传统的基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音识别系统相比,流式端到端语音识别模型把声学模型、发音字典和语音模型全部融合至一套神经网络中,让模型变得更加简洁的同时也更便于对参数直接优化。除此之外,其还具有更强的通用性,更快的实时性,既减少了对专业语言学知识的依赖,又提升了用户对语音产品互动时的体验感。在训练时,训练数据不需要对齐信息,可直接将带标注的语音直接用于训练;推理时不需要关注未来语 ...
【技术保护点】
【技术特征摘要】
1.一种流式端到端语音识别模型,用于配置于电子设备,其特征在于,所述流式端到端语音识别模型包括由联合网络整合的解码器和编码器,其中:所述解码器包括VGG(Visual Geometry Group,视觉几何组)模块,所述VGG模块用于采用流式卷积的方法对输入的音频信号进行卷积处理;所述编码器包括LSTM(Long Short
‑
Term Memory,长短时记忆)神经网络。2.如权利要求1所述的流式端到端语音识别模型,其特征在于,所述解码器包括多个输出信道,每个所述输出信道基于不...
【专利技术属性】
技术研发人员:吴明辉,唐海桃,孙磊,方昕,宋彦,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。