语音信号端点检测方法、装置、设备及存储介质制造方法及图纸

技术编号:19181267 阅读:22 留言:0更新日期:2018-10-17 01:07
本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质,通过获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。从而在确保语音信号端点检测准确性的同时,降低了计算量。

Speech signal endpoint detection method, device, device and storage medium

The embodiment of the present application provides a speech signal endpoint detection method, device, device and storage medium, which includes a speech signal in the first audio signal by acquiring a first audio signal, a first voice activity detection VAD algorithm based on energy and zero-crossing rate, and a second VAD algorithm based on depth learning from The starting point of the speech signal is detected in the first audio signal; after the starting point of the speech signal is detected, the end point of the speech signal is detected using the first VAD algorithm and another of the second VAD algorithm. So as to ensure the accuracy of speech signal endpoint detection, it reduces the amount of computation.

【技术实现步骤摘要】
语音信号端点检测方法、装置、设备及存储介质
本申请实施例涉及语音检测
,尤其涉及一种语音信号端点检测方法、装置、设备及存储介质。
技术介绍
语音活动检测(VoiceActivityDetection,简称VAD)又称语音端点检测,其通常应用在语音交互场景中,用于检测用户语音,从而基于用户语音进行相应的控制或者语音交互操作。现有的VAD检测方法主要有两种:一种是基于能量和过零率的VAD检测方法,这种方法功耗低,但是检测的准确性较差,尤其在环境情况较复杂,噪声严重的情况下,检测准确性非常低。另一种检测方法基于深度学习的VAD检测方法,这种方法准确性较高,但是计算量较大,对设备的性能要求较高。
技术实现思路
本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质,以在确保语音信号端点检测准确性的同时,降低检测的计算量,提升检测效率。本申请实施例第一方面提供一种语音信号端点检测方法,包括:获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。本申请实施例第二方面提供一种语音信号端点检测装置,包括:获取模块,用于获取第一音频信号,所述第一音频信号中包括语音信号;起点检测模块,用于基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;终点检测模块,用于在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;一个或多个麦克风,用于采集音频信号;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。基于以上各方面,本申请实施例通过获取包括语音信号的第一音频信号,基于能量和过零率的第一VAD算法和基于深度学习的第二VAD算法中的一种从音频信号中检测语音信号的起点,并在检测到语音信号的起点后,采用第一VAD算法和第二VAD算法中的另一种检测该语音信号的终点,从而避免了只采用第一VAD算法时存在的检测准确度低的问题,同时避免了只采用第二VAD算法时存在的计算量大的问题。本申请实施例通过第一VAD算法和第二VAD算法中的一种检测语音信号的起点,通过二者中的另一种检测语音信号的终点,能够在确保检测准确性的同时降低语音信号端点检测的计算量,提高了检测效率。应当理解,上述
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。附图说明图1是本申请实施例提供的一种语音信号端点检测方法的流程图;图2是本申请实施例提供的一种步骤S12的执行方法流程图;图3是本申请实施例提供的一种步骤S12的执行方法流程图;图4是本申请实施例提供的一种语音信号端点检测装置40的结构示意图;图5是本申请实施例提供的一种起点检测模块42的结构示意图;图6是本申请实施例提供的一种起点检测模块42的结构示意图;图7是根据一示例性实施例示出的一种终端设备的框图。具体实施方式下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了清楚理解本申请的技术方案,下面对本申请中涉及的算法进行解释:1、基于能量和过零率的第一VAD算法,在第一VAD算法中包括两级判决,第一级判决是从音频信号的起始帧开始将每一帧信号的能量与第一判决门限进行比较,若在第i帧信号时,信号能量大于第一判决门限则判断第i帧信号可能为语音信号的起始点。第二级判决是从上述第i帧信号开始将第i帧信号之后的每帧信号的过零率与第二判决门限进行比较,若第j帧信号的过零率大于第二判决门限,则确定第j帧信号为语音信号的起点。其中,音频信号帧的过零率是指每帧音频信号其波形通过零值的次数。2、基于深度学习的第二VAD算法,目前第二VAD算法主要包括如下两个阶段:A、训练阶段:对于一段音频信号,先经过预设的预处理操作之后,对每一帧信号提取指定的特征参数,同时使用人工标定的方法获得此段音频信号的语音帧标签和噪音帧标签,然后,将提取得到的特征参数输入到预设的深度学习网络模型中进行训练,并在网络最顶层使用人工标签作为监督数据进行监督,通过每层数据的调整与更新,反复训练获得基于深度学习的VAD检测模型。B、测试阶段,将待测试的音频信号输入上述获得的VAD检测模型,检测获得音频信号中语音信号的起点和终点。本申请实施例中涉及的第二VAD算法,主要涉及测试阶段的算法。现有技术大多单独采用第一VAD算法或者单独采用第二VAD算法来检测语音信号的起点和终端。但是,第一VAD算法容易受到噪声的影响,检测的准确度较低,而第二VAD算法又较复杂,计算量较高,因此,在二者单独使用时均不能达到很好的检测效果。针对现有技术存在的上述问题,本申请实施例提供了一种语音信号端点检测方法,该方法通过采用基于能量和过零率的第一VAD算法,以及基于深度学习的第二VAD算法中的一种从音频信号中检测语音信号的起点,并基于二者中的另一种检测语音信号的终点,保证了语音信号端点检测的准确度,降低了计算量,提高了检测效率。以下将参照附图来具体描述本申请的实施例。图1是本申请实施例提供的一种语音信号端点检测方法的流程图,该方法可以由一种语音信号端点检测装置(以下简称检测装置)来执行。参见图1,该方法包括步骤S11-S13:S11、获取第一音频信号,所述第一音频信号中包括语音信号。本实施例中的第一音频信号可以是存储在预设存储区域中的音频信号,也可以通过麦克风等音频采集设备采集获得的音频信号。该音频信号中包括语音信号,或者还可以包括用户静默时采集获得的背景音信号。S12、基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点。本文档来自技高网
...

【技术保护点】
1.一种语音信号端点检测方法,其特征在于,包括:获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。

【技术特征摘要】
1.一种语音信号端点检测方法,其特征在于,包括:获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。2.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:基于深度学习的第二VAD算法从所述第一音频信号中检测所述语音信号的起点。3.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:基于能量和过零率的第一VAD算法,从所述第一音频信号中检测所述语音信号的起点。4.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:检测所述第一音频信号的噪声水平;若所述第一音频信号的噪声水平小于预设第一阈值,则基于第一VAD算法检测所述第一音频信号中语音信号的起点;若所述第一音频信号的噪声水平高于预设第一阈值,则基于第二VAD算法检测所述第一音频信号中语音信号的起点。5.根据权利要求1所述的方法,其特征在于,所述基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点,包括:对所述第一音频信号进行降噪处理,获得第二音频信号;采用所述第一VAD算法从所述第二音频信号中检测语音信号的起点。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点,包括:在检测到语音信号的起点后,从所述起点的下一帧信号开始,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。7.根据权利要求1-5中任一项所述的方法,其特征在于,所述在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点之后,所述方法还包括:从所述音频信号中提取位于所述起点和所述终点之间的语音信号;对所述语音信号进行语义分析处理,...

【专利技术属性】
技术研发人员:李超朱唯鑫孙建伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1