当前位置: 首页 > 专利查询>清华大学专利>正文

一种语音端点检测和唤醒方法及装置制造方法及图纸

技术编号:17915071 阅读:292 留言:0更新日期:2018-05-10 19:50
本发明专利技术提供了一种语音端点检测和唤醒方法及装置,涉及机器学习语音识别领域技术领域。方法包括:获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。本发明专利技术的系统框架能够同时适用于语音端点检测和语音唤醒技术,能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。

【技术实现步骤摘要】
一种语音端点检测和唤醒方法及装置
本专利技术涉及机器学习语音识别领域
,尤其涉及一种语音端点检测和唤醒方法及装置。
技术介绍
当前,随着语音识别技术、数字化设备以及多媒体技术的发展,语音端点检测技术得到了良好的发展。目前,语音端点检测(VoiceActivityDetection,简称VAD)是在连续信号中检测出语音片段的技术,语音端点检测常与自动语音识别(AutomaticSpeechRecognition,简称ASR)系统、声纹识别系统相结合,检测有效而准确的语音端点成为这些系统的重要组成部分。语音唤醒指在音频流中检测预定义的关键字的过程,一旦检测到关键词即唤醒手机、音箱等嵌入式设备。要实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术,必须设计一个简单的模型和高效的后端评判策略,同时可以把网络模型压缩以适应于嵌入式系统和便携式设备。在现有技术中,G.Chen等人在“Small-footprintkeywordspottingusingdeepneuralnetworks”(Acoustics,SpeechandSignalProcessing(ICASSP),2014)中提出了可以采用深度神经网路(DeepNeuralNetworks,简称DNN)和后验平滑策略检测关键词从而唤醒设备。之后Sainath等人又在“Convolutionalneuralnetworksforsmall-footprintkeywordspotting”(INTERSPEECH,2015)中提出了采用卷积神经网络(ConvolutionalNeuralNetworks,,简称CNN)和DNN结合的方式同时辅助后验平滑策略检测关键词同时唤醒设备。虽然这些方法是简洁高效的,但是现有技术存在两个问题,一是因为,要实现较好的性能,需要采用传统的CNN和DNN网络需要做大量的加法、减法和乘法操作而消耗大量的内存和功耗。二是现有技术模型很大,4层512个节点的DNN网络,占用硬件存储空间6M,导致非常受限于某些应用场景,比如FPGA系统和嵌入式芯片等需要极小模型和极低的功耗。可见,当前如何实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术成为了一个亟待解决的问题。
技术实现思路
本专利技术的实施例提供一种语音端点检测和唤醒方法及装置,以解决现有技术中难以实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术的问题。为达到上述目的,本专利技术采用如下技术方案:一种语音端点检测和唤醒方法,包括:获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。具体的,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据,包括:根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。具体的,将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据,包括:将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。具体的,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,包括:对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;若从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值,则确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;若从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值,则确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。具体的,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,检测唤醒数据中的唤醒词数据,包括:对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率;若从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值,则确定所述第二模型输出结果中包含所述目标关键字;所述m为预先设置的数值。一种语音端点检测和唤醒装置,包括:特征提取单元,用于获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;二值化神经网络处理单元,用于将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;语音端点检测和唤醒处理单元,用于根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。具体的,所述特征提取单元,包括:采样模块,用于根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;语音端点检测Fbank特征数据确定模块,用于对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;唤醒Fbank特征数据确定模块,用于对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。具体的,所述二值化神经网络处理单元,包括:第一模型输出结果确定模块,用于将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;第二模型输出结果确定模块,用于将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。此外,所述语音端点检测和唤醒处理单元,具体用于:对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;在从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值时,确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;在从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值时,确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。此外,所述语音端点检测和唤醒处理单元,具体用于:对所述第二模型输出结果进行后验平滑处理得本文档来自技高网
...
一种语音端点检测和唤醒方法及装置

【技术保护点】
一种语音端点检测和唤醒方法,其特征在于,包括:获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。

【技术特征摘要】
1.一种语音端点检测和唤醒方法,其特征在于,包括:获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据;将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据;根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,并检测唤醒数据中的唤醒词数据。2.根据权利要求1所述的语音端点检测和唤醒方法,其特征在于,获取语音端点检测数据和唤醒数据,并对所述语音端点检测数据和唤醒数据进行Fbank特征提取,得到语音Fbank特征数据,包括:根据预先设置的采样频率,在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据;对所述语音端点检测数据采用26维Fbank特征提取,并加一阶和二阶偏导,得到语音端点检测Fbank特征数据;对所述唤醒数据采用40维Fbank特征提取,并加一阶和二阶偏导,得到唤醒Fbank特征数据。3.根据权利要求2所述的语音端点检测和唤醒方法,其特征在于,将所述语音Fbank特征数据输入到二值化神经网络模型,得到二值化神经网络输出结果数据,包括:将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第一模型输出结果;将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型,从模型最后一层的softmax层得到第二模型输出结果。4.根据权利要求3所述的语音端点检测和唤醒方法,其特征在于,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,确定语音端点检测数据的语音起始位置和语音结束位置,包括:对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj;若从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值,则确定所述第一目标帧语音为语音端点检测数据的语音起始位置;所述m为预先设置的数值;若从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值,则确定所述第二目标帧语音为语音端点检测数据的语音结束位置;所述n为预先设置的数值。5.根据权利要求3所述的语音端点检测和唤醒方法,其特征在于,根据预先设置的后端评判策略,对所述二值化神经网络输出结果数据进行处理,检测唤醒数据中的唤醒词数据,包括:对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率;若从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值,则确定所述第二模型输出结果中包含所述...

【专利技术属性】
技术研发人员:尹首一宋丹丹欧阳鹏刘雷波魏少军
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1