一种端到端语音识别方法技术

技术编号:39494292 阅读:8 留言:0更新日期:2023-11-24 11:20
本发明专利技术涉及智能语音技术领域,公开了一种端到端语音识别方法

【技术实现步骤摘要】
一种端到端语音识别方法、系统、终端及存储介质


[0001]本专利技术涉及智能语音
,具体涉及一种端到端语音识别方法,以及应用这种方法的系统

计算机终端及计算机可读存储介质


技术介绍

[0002]语音识别作为人机交互的一个重要分支,具有广泛的应用价值,也被逐渐应用到智能音箱

手机助手

智能座舱等业务场景中

目前常见的语音识别系统大多是由前端的语音端点检测
(VAD

Voice Activity Detection)
模块和后端的语音识别
(ASR

Auto Speech Recognition)
模块组成

作为语音识别系统的入口,
VAD
模块的主要作用是将输入的音频信号分成两个类别:语音段和非语音段

语音段通常包含说话人声音,而非语音段通常是环境噪声

背景音乐或者静音

一方面,通过判断音频信号的活动和非活动部分,
VAD
可以帮助语音识别系统在非活动段停止音频处理和计算,从而节省计算资源,并提高系统的效率和性能,另一反面,
VAD
可用于分割连续的语音段,从而提取单个语音段的特征并进行后续处理,这样可以减少噪音

非语音部分对于语音识别的干扰,提高语音识别的准确率

语音识别模块
ASR
大部分使用的非流式语音识别技术,需要等待用户音频流全部结束才能进行识别,导致较长的响应时间,难以满足一些实时性要求较高的应用场景,严重影响用户交互体验

[0003]为了提高语音识别系统的实时性,减小交互延迟,近年来,基于
CTC(Connectionist temporal classification
,连接时序分类准则
)

RNN

T(Recurrent Neural Network Transducer)
的端到端流式语音识别系统逐渐成为主流

流式语音识别系统可以在处理音频流的过程中,实时返回识别结果,能够大大减少人机交互过程中语音识别的处理时间,提高用户体验和交互效率

然而,一方面,为了更流畅的出字体验,流式语言识别模型的上下文视野
(context)
通常被限制在一个较小的范围内,与离线语音识别模型相比,识别准确率会出现大幅下降,此外,由于
RNN

T/CTC
基于序列的损失函数对于对齐路径
(alignment)
的优化是无差别的,不管该对齐路径是先输出
blank(
空白的输出
)
还是
symbol(
有实际标注的输出
)
,对于流式模型的训练,由于当前看到的
context
有限,模型总是倾向于等待更多的
context
输入后再决定是否输出
symbol
,导致后验概率的尖峰出现延迟,进而导致实际延迟会大于模型的理论时延,比如一个字是在第
100
帧说的,但是直到送了
150
帧数据进去才输出来;另一方面,为了保证端点检测的准确率,
VAD
模型通常会引入一定的硬时延
(>100ms)
,导致
VAD
模块检测出来的端点通常会滞后于音频实际端点,进而导致
VAD
模块出现较大时延,而
VAD
模块的时延又会传递到后端的
ASR
模块中,进一步增大
ASR
模块的时延,影响用户体验


技术实现思路

[0004]为了现有技术中语音识别系统存在时延较大的技术问题,本专利技术提供了一种端到端语音识别方法

系统

终端及存储介质

[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]本专利技术公开一种端到端语音识别方法,包括以下步骤:
[0007]S1.
接收待检测语音的音频信号,并提取出音频信号中的声学特征

[0008]S2.
将声学特征输入至
VAD
模组中进行端点检测,检测出有效人声音频

[0009]S3.
将有效人声音频输入至
ASR
模组中进行解码,输出语音识别结果

其中,
ASR
模组由第一编码器

第二编码器

置信度模型以及解码器组成

第一编码器和解码器构成用于生成流式识别结果的一遍模型

第二编码器和解码器构成二遍模型,二遍模型具有比一遍模型更大的上下文感受野

[0010]其中,步骤
S3
包括以下具体步骤:
[0011]S31.
将有效人声音频输入至一遍模型中进行解码

[0012]S32.
将一遍模型解码结果输入至置信度模型中进行解码可信度评估

当解码可信度高于预设可信度阈值时,则以一遍模型解码结果作为语音识别结果

否则将有效人声音频输入至二遍模型中进行解码,以二遍模型解码结果作为语音识别结果

[0013]作为上述方案的进一步改进,
VAD
模组由因果
VAD
模块以及非因果
VAD
模块组成,分别用于检测有效人声音频的前端点和尾端点

其中,因果
VAD
模块的右视野为
0ms
,非因果
VAD
模块的右视野大于
100ms。
[0014]作为上述方案的进一步改进,第一编码器和第二编码器均用于提取音频的高级声学表征,解码器根据音频的高级声学表征输出语音识别结果

解码器在解码过程中采用快速集束搜索解码策略及跳帧解码策略

[0015]作为上述方案的进一步改进,端对端语音识别方法通过预先训练的端对端语音识别模型实现;端对端语音识别模型在训练过程中的改进方法包括以下步骤:
[0016]基于
ASR
模组中的编码器的
CTC
训练准则构建尖峰优先正则化方法,使得在
CTC
的输出概率分布中,每一帧的概率分布都学习其后一帧

[0017]作为上述方案的进一步改进,尖峰优先正则化方法的损失
L
PER
的计算过程表示如下:
[0018本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种端到端语音识别方法,其特征在于,包括以下步骤:
S1.
接收待检测语音的音频信号,并提取出音频信号中的声学特征;
S2.
将所述声学特征输入至
VAD
模组中进行端点检测,检测出有效人声音频;
S3.
将有效人声音频输入至
ASR
模组中进行解码,输出语音识别结果;其中,
ASR
模组由第一编码器

第二编码器

置信度模型以及解码器组成;所述第一编码器和所述解码器构成用于生成流式识别结果的一遍模型;所述第二编码器和所述解码器构成二遍模型,所述二遍模型具有比所述一遍模型更大的上下文感受野;其中,步骤
S3
包括以下具体步骤:
S31.
将有效人声音频输入至所述一遍模型中进行解码;
S32.
将一遍模型解码结果输入至所述置信度模型中进行解码可信度评估;当解码可信度高于预设可信度阈值时,则以一遍模型解码结果作为语音识别结果;否则将有效人声音频输入至所述二遍模型中进行解码,以二遍模型解码结果作为语音识别结果
。2.
根据权利要求1所述的一种端到端语音识别方法,其特征在于,所述
VAD
模组由因果
VAD
模块以及非因果
VAD
模块组成,分别用于检测有效人声音频的前端点和尾端点;其中,所述因果
VAD
模块的右视野为
0ms
,所述非因果
VAD
模块的右视野大于
100ms。3.
根据权利要求1所述的一种端到端语音识别方法,其特征在于,所述第一编码器和所述第二编码器均用于提取音频的高级声学表征,所述解码器根据音频的高级声学表征输出语音识别结果;所述解码器在解码过程中采用快速集束搜索解码策略及跳帧解码策略
。4.
根据权利要求1所述的一种端到端语音识别方法,其特征在于,所述端对端语音识别方法通过预先训练的端对端语音识别模型实现;所述端对端语音识别模型在训练过程中的改进方法包括以下步骤:基于
ASR
模组中的编码器的
CTC
训练准则构建尖峰优先正则化方法,使得在
CTC
的输出概率分布中,每一帧的概率分布都学习其后一帧
。5.
根据权利要求4所述的一种端到端语音...

【专利技术属性】
技术研发人员:余兰林莫远秋都海波熊军林余涛李晨
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1