一种端到端多唤醒词的识别系统技术方案

技术编号：28124764 阅读：12 留言：0更新日期：2021-04-19 11:37

本发明专利技术属于语音识别技术领域，尤其是一种端到端多唤醒词的识别系统，现提出以下方案，包括唤醒系统，所述唤醒系统包括有VAD检测模块、唤醒识别模块和唤醒确认模块，且唤醒系统的工作流程包括以下步骤：S1：首先进行音频采集，然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测，即语音活动检测，可过滤掉大部分的静音和噪音音频；S2：其次对通过VAD检测的语音做唤醒识别，通过神经网络对输入的音频做判断，输出识别结果。本发明专利技术通过使用神经网络算法解决传统语音识别的问题，此技术及系统目的就是为了减少语音识别中不必要的音频采集，避免出现语音误识别，减少能量消耗，通过语音唤醒还可以让处于休眠中的设备进入工作状态。设备进入工作状态。设备进入工作状态。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端多唤醒词的识别系统

[0001]本专利技术涉及语音识别
，尤其涉及一种端到端多唤醒词的识别系统。

技术介绍

[0002]早期的语音唤醒采用基于模板匹配的方式，把提前收集的唤醒的语料数据转换为特征序列，使用DTW(dynamic time warping，动态时间规整)等方法将这些序列作为标准模板。在进行唤醒识别的时候对输入的音频流进行同样的特征处理，将处理的结果与标准模板比对。当比对结果高于唤醒触发阈值时便触发唤醒条件。
[0003]现阶段的音唤醒项目中一般通过提取到的语音MFCC(Mel
‑
scale Frequency Cepstral Coefficient，梅尔倒谱系数)特征，再将这些特征输入到DNN(Deep Neural Network，深度神经网络)中进行预测，通过后处理方法得到最终输出的预测结果与设定的唤醒词进行比对当触发唤醒词时抛出唤醒信息。
[0004]但是目前的同类产品和处理方法还存在有以下的不足之处：基于HMM
‑
DNN模型的语音唤醒项目中，不能有效利用历史信息来辅助当前任务，可能会导致识别的准确率不高，传统的语音唤醒技术只能识别出特定的唤醒词，无法实现多唤醒词唤醒，无法适用于复杂环境。

技术实现思路

[0005]基于
技术介绍
中提出的技术问题，本专利技术提出了一种端到端多唤醒词的识别系统。
[0006]本专利技术提出的一种端到端多唤醒词的识别系统，所述唤醒系统包括有VAD检测模块、唤醒识别模块和唤醒确认

【技术保护点】

【技术特征摘要】
1.一种端到端多唤醒词的识别系统，其特征在于，所述唤醒系统包括有VAD检测模块、唤醒识别模块和唤醒确认模块，且唤醒系统的工作流程包括以下步骤：S1：首先进行音频采集，然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测，即语音活动检测，可过滤掉大部分的静音和噪音音频；S2：其次对通过VAD检测的语音做唤醒识别，通过神经网络对输入的音频做判断，输出识别结果；S3：最后对唤醒识别输出的结果进行判断，触发唤醒词时对外抛出唤醒信息。2.根据权利要求1所述的一种端到端多唤醒词的识别系统，其特征在于，所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测，可以有效的将语音段开始端点以及结束端点判断出来，这能有效的减少对不必要语音的计算和识别，降低计算的复杂度。3.根据权利要求1所述的一种端到端多唤醒词的识别系统，其特征在于，所述唤醒识别模块只需要计算有效音频片段即可，在实际应用中，需要准确的判断等级和测试语音的开头和结尾，这会影响整个语音唤醒系统的识别效果，VAD是语音唤醒系统的基础。4.根据权利要求1所述的一种端到端多唤醒词的识别系统，其特征在于,所述VAD检测是人声的话，会对人声的特征进行提取，然后传递到神经网络，利用唤醒识别模块进行唤醒判断。5.根据权利要求4所述的一种端到端多唤醒词的识别系统，其特征在于，所述唤醒判断出的词是唤醒词，唤醒确认模块就会抛出唤醒信息。6.根...

【专利技术属性】
技术研发人员：王建兵，厉伟成，
申请(专利权)人：上海容大数字技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人