【技术实现步骤摘要】
一种端到端语音识别方法、系统、终端及存储介质
[0001]本专利技术涉及智能语音
,具体涉及一种端到端语音识别方法,以及应用这种方法的系统
、
计算机终端及计算机可读存储介质
。
技术介绍
[0002]语音识别作为人机交互的一个重要分支,具有广泛的应用价值,也被逐渐应用到智能音箱
、
手机助手
、
智能座舱等业务场景中
。
目前常见的语音识别系统大多是由前端的语音端点检测
(VAD
,
Voice Activity Detection)
模块和后端的语音识别
(ASR
,
Auto Speech Recognition)
模块组成
。
作为语音识别系统的入口,
VAD
模块的主要作用是将输入的音频信号分成两个类别:语音段和非语音段
。
语音段通常包含说话人声音,而非语音段通常是环境噪声
、
背景音乐或者静音
。
一方面,通过判断音频信号的活动和非活动部分,
VAD
可以帮助语音识别系统在非活动段停止音频处理和计算,从而节省计算资源,并提高系统的效率和性能,另一反面,
VAD
可用于分割连续的语音段,从而提取单个语音段的特征并进行后续处理,这样可以减少噪音
、
非语音部分对于语音识别的干扰,提高语音识别的准确率
。
语音识别模块
...
【技术保护点】
【技术特征摘要】
1.
一种端到端语音识别方法,其特征在于,包括以下步骤:
S1.
接收待检测语音的音频信号,并提取出音频信号中的声学特征;
S2.
将所述声学特征输入至
VAD
模组中进行端点检测,检测出有效人声音频;
S3.
将有效人声音频输入至
ASR
模组中进行解码,输出语音识别结果;其中,
ASR
模组由第一编码器
、
第二编码器
、
置信度模型以及解码器组成;所述第一编码器和所述解码器构成用于生成流式识别结果的一遍模型;所述第二编码器和所述解码器构成二遍模型,所述二遍模型具有比所述一遍模型更大的上下文感受野;其中,步骤
S3
包括以下具体步骤:
S31.
将有效人声音频输入至所述一遍模型中进行解码;
S32.
将一遍模型解码结果输入至所述置信度模型中进行解码可信度评估;当解码可信度高于预设可信度阈值时,则以一遍模型解码结果作为语音识别结果;否则将有效人声音频输入至所述二遍模型中进行解码,以二遍模型解码结果作为语音识别结果
。2.
根据权利要求1所述的一种端到端语音识别方法,其特征在于,所述
VAD
模组由因果
VAD
模块以及非因果
VAD
模块组成,分别用于检测有效人声音频的前端点和尾端点;其中,所述因果
VAD
模块的右视野为
0ms
,所述非因果
VAD
模块的右视野大于
100ms。3.
根据权利要求1所述的一种端到端语音识别方法,其特征在于,所述第一编码器和所述第二编码器均用于提取音频的高级声学表征,所述解码器根据音频的高级声学表征输出语音识别结果;所述解码器在解码过程中采用快速集束搜索解码策略及跳帧解码策略
。4.
根据权利要求1所述的一种端到端语音识别方法,其特征在于,所述端对端语音识别方法通过预先训练的端对端语音识别模型实现;所述端对端语音识别模型在训练过程中的改进方法包括以下步骤:基于
ASR
模组中的编码器的
CTC
训练准则构建尖峰优先正则化方法,使得在
CTC
的输出概率分布中,每一帧的概率分布都学习其后一帧
。5.
根据权利要求4所述的一种端到端语音...
【专利技术属性】
技术研发人员:余兰林,莫远秋,都海波,熊军林,余涛,李晨,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。