一种端到端多唤醒词的识别系统技术方案

技术编号:28124764 阅读:12 留言:0更新日期:2021-04-19 11:37
本发明专利技术属于语音识别技术领域,尤其是一种端到端多唤醒词的识别系统,现提出以下方案,包括唤醒系统,所述唤醒系统包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒系统的工作流程包括以下步骤:S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果。本发明专利技术通过使用神经网络算法解决传统语音识别的问题,此技术及系统目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态。设备进入工作状态。设备进入工作状态。

【技术实现步骤摘要】
一种端到端多唤醒词的识别系统


[0001]本专利技术涉及语音识别
,尤其涉及一种端到端多唤醒词的识别系统。

技术介绍

[0002]早期的语音唤醒采用基于模板匹配的方式,把提前收集的唤醒的语料数据转换为特征序列,使用DTW(dynamic time warping,动态时间规整)等方法将这些序列作为标准模板。在进行唤醒识别的时候对输入的音频流进行同样的特征处理,将处理的结果与标准模板比对。当比对结果高于唤醒触发阈值时便触发唤醒条件。
[0003]现阶段的音唤醒项目中一般通过提取到的语音MFCC(Mel

scale Frequency Cepstral Coefficient,梅尔倒谱系数)特征,再将这些特征输入到DNN(Deep Neural Network,深度神经网络)中进行预测,通过后处理方法得到最终输出的预测结果与设定的唤醒词进行比对当触发唤醒词时抛出唤醒信息。
[0004]但是目前的同类产品和处理方法还存在有以下的不足之处:基于HMM

DNN模型的语音唤醒项目中,不能有效利用历史信息来辅助当前任务,可能会导致识别的准确率不高,传统的语音唤醒技术只能识别出特定的唤醒词,无法实现多唤醒词唤醒,无法适用于复杂环境。

技术实现思路

[0005]基于
技术介绍
中提出的技术问题,本专利技术提出了一种端到端多唤醒词的识别系统。
[0006]本专利技术提出的一种端到端多唤醒词的识别系统,所述唤醒系统包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒系统的工作流程包括以下步骤:
[0007]S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;
[0008]S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果;
[0009]S3:最后对唤醒识别输出的结果进行判断,触发唤醒词时对外抛出唤醒信息;
[0010]本专利技术通过使用神经网络算法解决传统语音识别的问题,此技术及系统目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态,通过不同的唤醒语音可以让设备进入不同的工作状态。
[0011]优选地,所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。
[0012]优选地,所述唤醒识别模块只需要计算有效音频片段即可,在实际应用中,需要准确的判断等级和测试语音的开头和结尾,这会影响整个语音唤醒系统的识别效果,VAD是语
音唤醒系统的基础。
[0013]优选地,所述VAD检测是人声的话,会对人声的特征进行提取,然后传递到神经网络,利用唤醒识别模块进行唤醒判断。
[0014]优选地,所述唤醒判断出的词是唤醒词,唤醒确认模块就会抛出唤醒信息。
[0015]优选地,所述唤醒判断出的词不是唤醒词,系统会回到音频采集阶段。
[0016]优选地,所述唤醒词识别框架中采用的是基于注意力机制的唤醒识别技术,它主要由编码器和注意力模块和解码端组成。
[0017]优选地,述编码器的作用是对输入特征的进一步提取得到更有代表性的特征,x是输入的特征,编码器是可以利用语音上下文信息的RNN(Recurrent Neural Network,循环神经网络)网络,分别为前向网络和后向网络,双向网络可以传递过去与将来的信息,从而达到提升高层特征的信息量。输入特征在经历过编码器处理后特征进入注意力层,注意力机制选择更可能包含唤醒词的特征信息部分,忽略不相关的部分,之后解码网络计算注意力自网络输出序列,在通过线性变换和Softmax函数计算解码器处理后的结果在预设唤醒词中对应的概率分布,最后按照概率大小取概率分布中的前N个结果对外输出N*2的唤醒词矩阵,矩阵中包含预设的唤醒词以及当前识别结果中对应的识别概率,N为预设唤醒词数量。
[0018]优选地,在经历过所述语音唤醒识别后,识别模块抛出N*2的唤醒词矩阵,唤醒确认模块对矩阵进行后处理,计算出矩阵中概率最大的唤醒词,当该唤醒词超过设定阈值时,对外抛出该唤醒词以及对应的概率信息。
[0019]本专利技术中的有益效果为:
[0020]1、该端到端多唤醒词的识别系统,本专利技术通过使用神经网络算法解决传统语音识别的问题,此技术及系统目的就是为了减少语音识别中不必要的音频采集,避免出现语音误识别,减少能量消耗,通过语音唤醒还可以让处于休眠中的设备进入工作状态,通过不同的唤醒语音可以让设备进入不同的工作状态。
[0021]2、该端到端多唤醒词的识别系统,通过设置有语音活动检测可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。
[0022]3、该端到端多唤醒词的识别系统,本专利技术可以利用历史信息来辅助当前任务,识别的准确率高,可实现多唤醒词唤醒,可有效适用于复杂环境,提高了装置的实用性。
[0023]该装置中未涉及部分均与现有技术相同或可采用现有技术加以实现。
附图说明
[0024]图1为本专利技术提出的一种端到端多唤醒词的识别系统的主要框架图;
[0025]图2为本专利技术提出的一种端到端多唤醒词的识别系统的算法方案的流程图;
[0026]图3为本专利技术提出的一种端到端多唤醒词的识别系统的唤醒词识别框架流程图;
[0027]图4为本专利技术提出的一种端到端多唤醒词的识别系统的基于注意力机制的语音唤醒框架图。
具体实施方式
[0028]下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
[0029]下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。
[0030]在本专利的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利的限制。
[0031]在本专利的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定相连、设置,也可以是可拆卸连接、设置,或一体地连接、设置。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利中的具体含义。
[0032]参照图1...

【技术保护点】

【技术特征摘要】
1.一种端到端多唤醒词的识别系统,其特征在于,所述唤醒系统包括有VAD检测模块、唤醒识别模块和唤醒确认模块,且唤醒系统的工作流程包括以下步骤:S1:首先进行音频采集,然后对采集的语音做VAD(Voice Activity Detection语音活动检测)检测,即语音活动检测,可过滤掉大部分的静音和噪音音频;S2:其次对通过VAD检测的语音做唤醒识别,通过神经网络对输入的音频做判断,输出识别结果;S3:最后对唤醒识别输出的结果进行判断,触发唤醒词时对外抛出唤醒信息。2.根据权利要求1所述的一种端到端多唤醒词的识别系统,其特征在于,所述语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,可以有效的将语音段开始端点以及结束端点判断出来,这能有效的减少对不必要语音的计算和识别,降低计算的复杂度。3.根据权利要求1所述的一种端到端多唤醒词的识别系统,其特征在于,所述唤醒识别模块只需要计算有效音频片段即可,在实际应用中,需要准确的判断等级和测试语音的开头和结尾,这会影响整个语音唤醒系统的识别效果,VAD是语音唤醒系统的基础。4.根据权利要求1所述的一种端到端多唤醒词的识别系统,其特征在于,所述VAD检测是人声的话,会对人声的特征进行提取,然后传递到神经网络,利用唤醒识别模块进行唤醒判断。5.根据权利要求4所述的一种端到端多唤醒词的识别系统,其特征在于,所述唤醒判断出的词是唤醒词,唤醒确认模块就会抛出唤醒信息。6.根...

【专利技术属性】
技术研发人员:王建兵厉伟成
申请(专利权)人:上海容大数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1