【技术实现步骤摘要】
一种基于深度学习的端对端语音识别系统
本专利技术涉及语音识别
,特别是涉及一种基于深度学习的端对端语音识别系统。
技术介绍
语音识别,用于将语音转换为对应文本,一般包括声学模块与语言模块两个基础模块。对于输入的语音信号,声学模块负责对信号的特征进行提取,并计算语音到音节(或其他最小单位)的概率,而语言模块利用语言模型,将最小单位转化为人类或计算机可以理解的完整的自然语言。当前语音识别分为两种,一是概率模型方法,二是深度学习方法。对于前者,最典型的是基于隐马尔可夫模型(HMM)与混合高斯分布(GMM)的语音识别模型(HMM-GMM),它首先对音频进行毫秒级别的分帧,并对每一帧提取声学特征(包括FBank、MFCC),对每一帧,采用GMM计算混合分布模型的期望与协方差,从而获得每一帧对应的每一个HMM状态的概率值,并计算HMM中不同状态之间的转换概率。对于深度学习的方法,比较经典的DeepSpeech2模型同样是将模型分为声学模型与语言模型两部分。对于声学模型,分别采用CNN和RNN学习发音特征与信号的静动 ...
【技术保护点】
1.一种基于深度学习的端对端语音识别系统,其特征在于,包括:/n声学模型,依次包括VGG-Net层、第一全连接层、双向RNN层、第二全连接层、Softmax层及CTC层,用于提取音频的二维FBank特征后,经所述VGG-Net层、第一全连接层、双向RNN层、第二全连接层、经Softmax层及CTC层处理后,得到每个时间步的归一化概率分布,再根据时间步归一化概率分布的熵值结果输出候选拼音序列;/n语言模型,与所述声学模型相连接,包括依次连接的Transformer编码器以及n-gram模型;所述Transformer编码器用于根据输入的候选拼音序列,输出与所述汉语拼音序列等长 ...
【技术特征摘要】
1.一种基于深度学习的端对端语音识别系统,其特征在于,包括:
声学模型,依次包括VGG-Net层、第一全连接层、双向RNN层、第二全连接层、Softmax层及CTC层,用于提取音频的二维FBank特征后,经所述VGG-Net层、第一全连接层、双向RNN层、第二全连接层、经Softmax层及CTC层处理后,得到每个时间步的归一化概率分布,再根据时间步归一化概率分布的熵值结果输出候选拼音序列;
语言模型,与所述声学模型相连接,包括依次连接的Transformer编码器以及n-gram模型;所述Transformer编码器用于根据输入的候选拼音序列,输出与所述汉语拼音序列等长的汉字序列,所述n-gram模型,用于对Transformer编码器所输出的汉字序列处理,选出目标汉字文本输出。
2.根据权利要...
【专利技术属性】
技术研发人员:曹琉,张大朋,孙哲南,张森,
申请(专利权)人:天津中科智能识别产业技术研究院有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。