The embodiment of the present application provides a speech signal endpoint detection method, device, device and storage medium, which includes a speech signal in the first audio signal by acquiring a first audio signal, a first voice activity detection VAD algorithm based on energy and zero-crossing rate, and a second VAD algorithm based on depth learning from The starting point of the speech signal is detected in the first audio signal; after the starting point of the speech signal is detected, the end point of the speech signal is detected using the first VAD algorithm and another of the second VAD algorithm. So as to ensure the accuracy of speech signal endpoint detection, it reduces the amount of computation.
【技术实现步骤摘要】
语音信号端点检测方法、装置、设备及存储介质
本申请实施例涉及语音检测
,尤其涉及一种语音信号端点检测方法、装置、设备及存储介质。
技术介绍
语音活动检测(VoiceActivityDetection,简称VAD)又称语音端点检测,其通常应用在语音交互场景中,用于检测用户语音,从而基于用户语音进行相应的控制或者语音交互操作。现有的VAD检测方法主要有两种:一种是基于能量和过零率的VAD检测方法,这种方法功耗低,但是检测的准确性较差,尤其在环境情况较复杂,噪声严重的情况下,检测准确性非常低。另一种检测方法基于深度学习的VAD检测方法,这种方法准确性较高,但是计算量较大,对设备的性能要求较高。
技术实现思路
本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质,以在确保语音信号端点检测准确性的同时,降低检测的计算量,提升检测效率。本申请实施例第一方面提供一种语音信号端点检测方法,包括:获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。本申请实施例第二方面提供一种语音信号端点检测装置,包括:获取模块,用于获取第一音频信号,所述第一音频信号中包括语音信号;起点检测模块,用于基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;终点检测模块,用于在检 ...
【技术保护点】
1.一种语音信号端点检测方法,其特征在于,包括:获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。
【技术特征摘要】
1.一种语音信号端点检测方法,其特征在于,包括:获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。2.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:基于深度学习的第二VAD算法从所述第一音频信号中检测所述语音信号的起点。3.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:基于能量和过零率的第一VAD算法,从所述第一音频信号中检测所述语音信号的起点。4.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:检测所述第一音频信号的噪声水平;若所述第一音频信号的噪声水平小于预设第一阈值,则基于第一VAD算法检测所述第一音频信号中语音信号的起点;若所述第一音频信号的噪声水平高于预设第一阈值,则基于第二VAD算法检测所述第一音频信号中语音信号的起点。5.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:对所述第一音频信号进行降噪处理,获得第二音频信号;采用所述第一VAD算法从所述第二音频信号中检测语音信号的起点。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点,包括:在检测到语音信号的起点后,从所述起点的下一帧信号开始,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。7.根据权利要求1-5中任一项所述的方法,其特征在于,所述在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点之后,所述方法还包括:从所述音频信号中提取位于所述起点和所述终点之间的语音信号;对所述语音信号进行语义分析处理,...
【专利技术属性】
技术研发人员:李超,朱唯鑫,孙建伟,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。