一种语音端点检测和唤醒方法及装置制造方法及图纸

技术编号：17915071 阅读：292 留言：0更新日期：2018-05-10 19:50

本发明专利技术提供了一种语音端点检测和唤醒方法及装置，涉及机器学习语音识别领域技术领域。方法包括：获取语音端点检测数据和唤醒数据，并对所述语音端点检测数据和唤醒数据进行Fbank特征提取，得到语音Fbank特征数据；将所述语音Fbank特征数据输入到二值化神经网络模型，得到二值化神经网络输出结果数据；根据预先设置的后端评判策略，对所述二值化神经网络输出结果数据进行处理，确定语音端点检测数据的语音起始位置和语音结束位置，并检测唤醒数据中的唤醒词数据。本发明专利技术的系统框架能够同时适用于语音端点检测和语音唤醒技术，能够实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音端点检测和唤醒方法及装置
本专利技术涉及机器学习语音识别领域
，尤其涉及一种语音端点检测和唤醒方法及装置。
技术介绍
当前，随着语音识别技术、数字化设备以及多媒体技术的发展，语音端点检测技术得到了良好的发展。目前，语音端点检测(VoiceActivityDetection，简称VAD)是在连续信号中检测出语音片段的技术，语音端点检测常与自动语音识别(AutomaticSpeechRecognition，简称ASR)系统、声纹识别系统相结合，检测有效而准确的语音端点成为这些系统的重要组成部分。语音唤醒指在音频流中检测预定义的关键字的过程，一旦检测到关键词即唤醒手机、音箱等嵌入式设备。要实现准确的、快速的、低延迟、小模型和低功耗的语音端点检测技术和语音唤醒技术，必须设计一个简单的模型和高效的后端评判策略，同时可以把网络模型压缩以适应于嵌入式系统和便携式设备。在现有技术中，G.Chen等人在“Small-footprintkeywordspottingusingdeepneuralnetworks”(Acoustics,SpeechandSignalProcessing(ICASSP),2014)中提出了可以采用深度神经网路(DeepNeuralNetworks，简称DNN)和后验平滑策略检测关键词从而唤醒设备。之后Sainath等人又在“Convolutionalneuralnetworksforsmall-footprintkeywordspotting”(INTERSPEECH，2015)中提出了采用卷积神经网络(ConvolutionalN...
一种语音端点检测和唤醒方法及装置

【技术保护点】
一种语音端点检测和唤醒方法，其特征在于，包括：获取语音端点检测数据和唤醒数据，并对所述语音端点检测数据和唤醒数据进行Fbank特征提取，得到语音Fbank特征数据；将所述语音Fbank特征数据输入到二值化神经网络模型，得到二值化神经网络输出结果数据；根据预先设置的后端评判策略，对所述二值化神经网络输出结果数据进行处理，确定语音端点检测数据的语音起始位置和语音结束位置，并检测唤醒数据中的唤醒词数据。

【技术特征摘要】
1.一种语音端点检测和唤醒方法，其特征在于，包括：获取语音端点检测数据和唤醒数据，并对所述语音端点检测数据和唤醒数据进行Fbank特征提取，得到语音Fbank特征数据；将所述语音Fbank特征数据输入到二值化神经网络模型，得到二值化神经网络输出结果数据；根据预先设置的后端评判策略，对所述二值化神经网络输出结果数据进行处理，确定语音端点检测数据的语音起始位置和语音结束位置，并检测唤醒数据中的唤醒词数据。2.根据权利要求1所述的语音端点检测和唤醒方法，其特征在于，获取语音端点检测数据和唤醒数据，并对所述语音端点检测数据和唤醒数据进行Fbank特征提取，得到语音Fbank特征数据，包括：根据预先设置的采样频率，在预先设置的采样环境中采集获取语音端点检测数据和唤醒数据；对所述语音端点检测数据采用26维Fbank特征提取，并加一阶和二阶偏导，得到语音端点检测Fbank特征数据；对所述唤醒数据采用40维Fbank特征提取，并加一阶和二阶偏导，得到唤醒Fbank特征数据。3.根据权利要求2所述的语音端点检测和唤醒方法，其特征在于，将所述语音Fbank特征数据输入到二值化神经网络模型，得到二值化神经网络输出结果数据，包括：将所述语音端点检测Fbank特征数据输入到由2层CNN和1层DNN组成的二值化神经网络模型，从模型最后一层的softmax层得到第一模型输出结果；将所述唤醒Fbank特征数据输入到由2层CNN和4层DNN组成的二值化神经网络模型，从模型最后一层的softmax层得到第二模型输出结果。4.根据权利要求3所述的语音端点检测和唤醒方法，其特征在于，根据预先设置的后端评判策略，对所述二值化神经网络输出结果数据进行处理，确定语音端点检测数据的语音起始位置和语音结束位置，包括：对所述第一模型输出结果进行后验平滑处理得到各帧语音的声母和韵母合后的非静音的概率pj；若从一第一目标帧语音开始连续m帧语音的概率pj均大于预先设置的非静音的阈值，则确定所述第一目标帧语音为语音端点检测数据的语音起始位置；所述m为预先设置的数值；若从一第二目标帧语音开始连续n帧语音的概率pj均小于预先设置的静音的阈值，则确定所述第二目标帧语音为语音端点检测数据的语音结束位置；所述n为预先设置的数值。5.根据权利要求3所述的语音端点检测和唤醒方法，其特征在于，根据预先设置的后端评判策略，对所述二值化神经网络输出结果数据进行处理，检测唤醒数据中的唤醒词数据，包括：对所述第二模型输出结果进行后验平滑处理得到各帧语音中与唤醒词中各关键字对应的关键字概率；若从一第一目标帧语音开始连续m帧语音的一目标关键字的关键字概率大于目标关键字的预设阈值，则确定所述第二模型输出结果中包含所述...

【专利技术属性】
技术研发人员：尹首一，宋丹丹，欧阳鹏，刘雷波，魏少军，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人