语音活动检测方法、装置和设备制造方法及图纸

技术编号:19483324 阅读:18 留言:0更新日期:2018-11-17 10:57
本发明专利技术实施例提供一种语音活动检测方法、装置和设备。该方法包括:对待检测的音频信号进行平滑处理,计算经过平滑处理后的音频信号中每一帧信号的能量和过零率,根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。本发明专利技术实施例的方法,通过对包含噪声信号的音频信号进行平滑处理,使得音频信号中的噪声信号被大幅削弱,提升了语音活动检测在噪声环境中的性能。

【技术实现步骤摘要】
语音活动检测方法、装置和设备
本专利技术实施例涉及语音信号处理
,尤其涉及一种语音活动检测方法、装置和设备。
技术介绍
语音活动检测(VoiceActivityDetection,简称:VAD)又称语音端点检测,语音边界检测。通过对声音信号中语音和非语音的检测,以便从声音信号流里识别和消除长时间的静音期。通常用于语音识别、语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。语音信号因其非平稳特性,及其容易受到噪声信号的干扰,噪声的扰动会严重影响VAD的准确性。现有基于G.729标准的VAD方法通过计算信号的能量,然后设定门限对信号的每一帧进行简单的分类,然而,这种方法在噪声存在的情况下无法取得令人满意的效果。随着语音处理技术的不断发展,对语音活动检测的要求也越来越高。因此,需要一种语音活动检测方法能够在噪声环境中,依然保持良好的检测性能。
技术实现思路
本专利技术实施例提供一种语音活动检测方法、装置和设备,用以解决现有技术中在噪声环境中,语音活动检测性能不高的问题。第一方面,本专利技术实施例提供一种语音活动检测方法,包括:对待检测的音频信号进行平滑处理;计算经过平滑处理后的音频信号中每一帧信号的能量和过零率;根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率;根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。在一种可能的实现方式中,对待检测的音频信号进行平滑处理包括:在待检测的音频信号中每N个采样点计算一个平均值,作为每N个采样点平滑后的输出值,N为大于1的自然数。在一种可能的实现方式中,在计算经过平滑处理后的音频信号中每一帧信号的能量和过零率之前,还包括:根据预设的帧长和预设的帧移,对经过平滑处理后的音频信号进行分帧处理,预设的帧长大于预设的帧移。在一种可能的实现方式中,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号,包括:若概率大于预设概率值,则确定该帧信号是语音信号;若概率小于等于预设概率值,则确定该帧信号是噪声信号。在一种可能的实现方式中,在根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率之前,还包括:对训练语料库中的音频信号进行平滑处理和分帧处理,生成多个训练样本;将多个训练样本的能量和过零率作为检测模型的输入特征,将多个训练样本是否是语音信号作为检测模型的期望输出特征,对检测模型进行训练。在一种可能的实现方式中,检测模型基于深度神经网络、逻辑回归模型或者支持向量机模型进行训练。第二方面,本专利技术实施例提供一种语音活动检测装置,包括:平滑模块,用于对待检测的音频信号进行平滑处理;计算模块,用于计算经过平滑处理后的音频信号中每一帧信号的能量和过零率;确定模块,用于根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率;确定模块,还用于根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。在一种可能的实现方式中,平滑模块具体用于,在待检测的音频信号中每N个采样点计算一个平均值,作为每N个采样点平滑后的输出值,N为大于1的自然数。第三方面,本专利技术实施例提供一种语音活动检测设备,包括:存储器;处理器;以及计算机程序;其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如第一方面任一项的方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现如第一方面任一项的方法。本专利技术实施例提供的语音活动检测方法、装置和设备,通过对待检测的音频信号进行平滑处理,计算经过平滑处理后的音频信号中每一帧信号的能量和过零率,根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号,实现了噪声环境下的语音活动的高性能检测。由于语音信号和噪声信号所具有的不同特性,平滑处理可以使音频信号中的噪声信号的幅值被大幅度平滑,而音频信号中的语音信号被平滑的幅度相较于噪声信号被平滑的幅度来说小得多,可以提取出更具有差异性的声学特征,提升了语音活动检测在噪声环境中的性能。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1为本专利技术提供的语音活动检测方法一实施例的流程图;图2为本专利技术提供的语音活动检测方法又一实施例的流程图;图3为本专利技术提供的语音活动检测方法一实施中训练检测模型的流程图;图4为本专利技术提供的语音活动检测装置一实施例的结构示意图;图5为本专利技术提供的语音活动检测设备一实施例的结构示意图。通过上述附图,已示出本专利技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本专利技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。本专利技术的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术中的“第一”和“第二”只起标识作用,而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本专利技术的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。图1为本专利技术提供的语音活动检测方法一实施例的流程图。如图1所示,本实施例提供的语音活动检测方法可以包括:步骤S101、对待检测的音频信号进行平滑处理。随着人工智能技术的不断发展,各种基于语音识别的智能应用不断推出。以手机为例,语音搜索、语音导航等应用正在逐步影响用户的使用习惯。而手机通常通过麦克风采集音频信号,在采集的过程中不可避免会受到环境噪声的影响,噪声的存在会影响语音信号的处理性能。下面通过一个具体的场景来进行详细说明。智能手机提供了驾驶模式,以便用户在驾车时,通过语音对智能手机进行控制。例如,在驾车过程中,用户可以通过语音“打电话给张三”,控制手机拨打电话给通讯录中名叫张三的人;通过语音“接听来电”,控制手机接通来电;通过语音“搜索最近的停车场”,控制手机提供到本文档来自技高网...

【技术保护点】
1.一种语音活动检测方法,其特征在于,包括:对待检测的音频信号进行平滑处理;计算经过平滑处理后的音频信号中每一帧信号的能量和过零率;根据所述每一帧信号的能量、过零率和预先训练的检测模型,确定所述每一帧信号是语音信号的概率;根据所述每一帧信号是语音信号的概率,确定所述音频信号中的噪声信号和语音信号。

【技术特征摘要】
1.一种语音活动检测方法,其特征在于,包括:对待检测的音频信号进行平滑处理;计算经过平滑处理后的音频信号中每一帧信号的能量和过零率;根据所述每一帧信号的能量、过零率和预先训练的检测模型,确定所述每一帧信号是语音信号的概率;根据所述每一帧信号是语音信号的概率,确定所述音频信号中的噪声信号和语音信号。2.根据权利要求1所述的方法,其特征在于,所述对待检测的音频信号进行平滑处理包括:在所述待检测的音频信号中每N个采样点计算一个平均值,作为所述每N个采样点平滑后的输出值,N为大于1的自然数。3.根据权利要求1所述的方法,其特征在于,在所述计算经过平滑处理后的音频信号中每一帧信号的能量和过零率之前,还包括:根据预设的帧长和预设的帧移,对所述经过平滑处理后的音频信号进行分帧处理,所述预设的帧长大于所述预设的帧移。4.根据权利要求1所述的方法,其特征在于,所述根据所述每一帧信号是语音信号的概率,确定所述音频信号中的噪声信号和语音信号,包括:若所述概率大于预设概率值,则确定该帧信号是语音信号;若所述概率小于等于预设概率值,则确定该帧信号是噪声信号。5.根据权利要求1所述的方法,其特征在于,在所述根据所述每一帧信号的能量、过零率和预先训练的检测模型,确定所述每一帧信号是语音信号的概率之前,还包括:对训练语料库中的音频信号进行平滑处理...

【专利技术属性】
技术研发人员:李超文铭朱唯鑫
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1