一种活动语音检测方法及系统技术方案

技术编号:23026125 阅读:18 留言:0更新日期:2020-01-03 17:18
本发明专利技术提供一种活动语音检测方法及系统,该方法为:获取待处理音频数据流,确定每帧待处理音频信号的自相关性特征和功率谱;确定每帧待处理音频信号的后验信噪比和估计先验信噪比;确定每帧待处理音频信号的MMSE增益并进行滤波得到增强信号;比较每帧待处理音频信号与自身对应的增强信号,得到每帧待处理音频信号的判决结果;逐一将每一判决结果缓存至延迟窗口中,基于判决条件、延迟窗口的状态和每个判决结果,输出待处理音频数据流中的活动语音帧。本方案中,根据背景噪声、音频信号的自相关性特征和功率谱,确定每帧音频信号的判决结果。并利用延迟窗口对每个判决结果进行处理,输出音频数据流中的活动语音帧,提高判决活动语音帧的准确性。

An active voice detection method and system

【技术实现步骤摘要】
一种活动语音检测方法及系统
本专利技术涉及语音数据处理
,具体涉及一种活动语音检测方法及系统。
技术介绍
随着科学技术的不断发展,语音识别技术逐渐应用于各个领域中。在对采集得到的待识别音频进行语音识别时,通常需要对待识别音频进行裁剪,将裁剪后得到的活动语音帧作为语音识别的输入。目的对于待识别音频的裁剪方式为:利用语音活动检测(VoiceActivityDetection,VAD)技术,通过固定的判决逻辑和判决参数阈值提取待识别音频中的活动语音帧。但是不同环境背景下采集得到的待识别音频中的噪声类型不同,采取固定的判决逻辑和判决参数阈值会将噪声误判为活动语音帧,判决活动语音帧的准确性低。
技术实现思路
有鉴于此,本专利技术实施例提供一种活动语音检测方法及系统,以解决现有判决活动语音帧方式存在的判决准确性低的问题。为实现上述目的,本专利技术实施例提供如下技术方案:本专利技术实施例第一方面公开一种活动语音检测方法,所述方法包括:实时获取待处理音频数据流,所述待处理音频数据流由多帧待处理音频信号构成;确定每一帧所述待处理音频信号的自相关性特征和功率谱;基于每一帧所述待处理音频信号的自相关性特征和功率谱,确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比;基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比,确定每一帧所述待处理音频信号的最小均方误差MMSE增益,并对每一帧所述待处理音频信号进行滤波得到增强信号;比较每一帧所述待处理音频信号与自身对应的所述增强信号,得到每一帧所述待处理音频信号的判决结果,所述判决结果用于指示所述待处理音频信号是否为活动语音帧;逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中,基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果,输出所述待处理音频数据流中的活动语音帧,所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。优选的,所述基于每一帧所述待处理音频信号的自相关性特征和功率谱,确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比,包括:基于跟踪局部最小能量算法,估计所述待处理音频数据流的背景噪声;利用所述背景噪声和每一帧所述待处理音频信号的功率谱,确定每一帧所述待处理音频信号的后验信噪比;基于每一帧所述待处理音频信号的后验信噪比和前一帧增益后的信噪比通过直接判决算法,确定每一帧所述待处理音频信号的估计先验信噪比。优选的,所述逐一将所述待处理音频信号缓存至延迟窗口中,基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果,输出所述待处理音频数据流中的活动语音帧,包括:将当前待处理音频信号缓存至延迟窗口中;根据所述延迟窗口中缓存的多帧所述待处理音频信号,确定所述延迟窗口的状态;当所述延迟窗口的状态为非语音状态并且缓存的所述待处理音频信号的帧数为第一阈值,基于每一帧所述待处理音频信号的判决结果,判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的占比是否大于等于预设百分比;若所述占比大于等于预设百分比,将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出,返回执行缓存这一步骤;若所述占比小于所述预设百分比,将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出,返回执行缓存这一步骤;当所述延迟窗口的状态为语音进行状态,基于每一帧所述待处理音频信号的判决结果,判断所述当前待处理音频信号是否为活动语音帧;若所述当前待处理音频信号为活动语音帧,输出所述当前待处理音频信号,并进行连续静音计数,返回执行缓存这一步骤;若所述当前待处理音频信号为非活动语音帧,静音计数加1,判断所述静音计数是否小于第二阈值;若所述静音计数小于所述第二阈值,将所述当前待处理音频信号作为活动语音帧输出,返回执行缓存这一步骤;若所述静音计数大于等于所述第二阈值,将所述延迟窗口的状态设置为语音过渡状态,返回执行缓存这一步骤;当所述延迟窗口的状态为语音过渡状态时,确定所述延迟窗口中缓存的所述待处理音频信号的帧数是否等于第三阈值;若所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值,基于每一帧所述待处理音频信号的判决结果,判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值;若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量大于第四阈值,将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出,返回执行缓存这一步骤;若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量小于等于第四阈值,将所述延迟窗口的状态设置为非语音状态,返回执行缓存这一步骤。优选的,所述比较每一帧所述待处理音频信号与自身对应的所述增强信号,得到每一帧所述待处理音频信号的判决结果,包括:基于所述背景噪声、每一帧所述待处理音频信号与自身对应的所述增强信号,确定每一帧所述待处理音频信号为活动语音帧的概率;针对每一帧所述待处理音频信号,若所述概率大于阈值,确定所述待处理音频信号为活动语音帧。本专利技术实施例第二方面公开一种活动语音检测系统,所述系统包括:获取单元,用于实时获取待处理音频数据流,所述待处理音频数据流由多帧待处理音频信号构成;第一确定单元,用于确定每一帧所述待处理音频信号的自相关性特征和功率谱;第二确定单元,用于基于每一帧所述待处理音频信号的自相关性特征和功率谱,确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比;第三确定单元,用于基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比,确定每一帧所述待处理音频信号的最小均方误差MMSE增益,并对每一帧所述待处理音频信号进行滤波得到增强信号;比较单元,用于比较每一帧所述待处理音频信号与自身对应的所述增强信号,得到每一帧所述待处理音频信号的判决结果,所述判决结果用于指示所述待处理音频信号是否为活动语音帧;处理单元,用于逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中,基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果,输出所述待处理音频数据流中的活动语音帧,所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。优选的,所述第二确定单元包括:估计模块,用于基于跟踪局部最小能量算法,估计所述待处理音频数据流的背景噪声;第一确定模块,用于利用所述背景噪声和每一帧所述待处理音频信号的功率谱,确定每一帧所述待处理音频信号的后验信噪比;第二确定模块,用于基于每一帧所述待处理音频信号的后验信噪比和前一帧增益后的信噪比通过直接判决算法,确定每一帧所述待处理音频信号的估计先验信噪比。优选的,所述处理单元包括:缓存模块,用于将当前待处理音频信号缓存至延迟窗口中;状态确定模块,用于根据所述延迟窗口中缓存的多帧所述待处理音频信号,确定所本文档来自技高网...

【技术保护点】
1.一种活动语音检测方法,其特征在于,所述方法包括:/n实时获取待处理音频数据流,所述待处理音频数据流由多帧待处理音频信号构成;/n确定每一帧所述待处理音频信号的自相关性特征和功率谱;/n基于每一帧所述待处理音频信号的自相关性特征和功率谱,确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比;/n基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比,确定每一帧所述待处理音频信号的最小均方误差MMSE增益,并对每一帧所述待处理音频信号进行滤波得到增强信号;/n比较每一帧所述待处理音频信号与自身对应的所述增强信号,得到每一帧所述待处理音频信号的判决结果,所述判决结果用于指示所述待处理音频信号是否为活动语音帧;/n逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中,基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果,输出所述待处理音频数据流中的活动语音帧,所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。/n

【技术特征摘要】
1.一种活动语音检测方法,其特征在于,所述方法包括:
实时获取待处理音频数据流,所述待处理音频数据流由多帧待处理音频信号构成;
确定每一帧所述待处理音频信号的自相关性特征和功率谱;
基于每一帧所述待处理音频信号的自相关性特征和功率谱,确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比;
基于每一帧所述待处理音频信号的后验信噪比和估计先验信噪比,确定每一帧所述待处理音频信号的最小均方误差MMSE增益,并对每一帧所述待处理音频信号进行滤波得到增强信号;
比较每一帧所述待处理音频信号与自身对应的所述增强信号,得到每一帧所述待处理音频信号的判决结果,所述判决结果用于指示所述待处理音频信号是否为活动语音帧;
逐一将每一帧所述待处理音频信号的判决结果缓存至延迟窗口中,基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果,输出所述待处理音频数据流中的活动语音帧,所述延迟窗口的状态为非语音状态、语音进行状态或语音过渡状态。


2.根据权利要求1所述的方法,其特征在于,所述基于每一帧所述待处理音频信号的自相关性特征和功率谱,确定每一帧所述待处理音频信号的后验信噪比和估计先验信噪比,包括:
基于跟踪局部最小能量算法,估计所述待处理音频数据流的背景噪声;
利用所述背景噪声和每一帧所述待处理音频信号的功率谱,确定每一帧所述待处理音频信号的后验信噪比;
基于每一帧所述待处理音频信号的后验信噪比和前一帧增益后的信噪比通过直接判决算法,确定每一帧所述待处理音频信号的估计先验信噪比。


3.根据权利要求1所述的方法,其特征在于,所述逐一将所述待处理音频信号缓存至延迟窗口中,基于预设判决条件、所述延迟窗口的状态和每一帧所述待处理音频信号的判决结果,输出所述待处理音频数据流中的活动语音帧,包括:
将当前待处理音频信号缓存至延迟窗口中;
根据所述延迟窗口中缓存的多帧所述待处理音频信号,确定所述延迟窗口的状态;
当所述延迟窗口的状态为非语音状态并且缓存的所述待处理音频信号的帧数为第一阈值,基于每一帧所述待处理音频信号的判决结果,判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的占比是否大于等于预设百分比;
若所述占比大于等于预设百分比,将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出,返回执行缓存这一步骤;
若所述占比小于所述预设百分比,将所述延迟窗口中的第一帧所述待处理音频信号作为非活动语音帧输出,返回执行缓存这一步骤;
当所述延迟窗口的状态为语音进行状态,基于每一帧所述待处理音频信号的判决结果,判断所述当前待处理音频信号是否为活动语音帧;
若所述当前待处理音频信号为活动语音帧,输出所述当前待处理音频信号,并进行连续静音计数,返回执行缓存这一步骤;
若所述当前待处理音频信号为非活动语音帧,静音计数加1,判断所述静音计数是否小于第二阈值;
若所述静音计数小于所述第二阈值,将所述当前待处理音频信号作为活动语音帧输出,返回执行缓存这一步骤;
若所述静音计数大于等于所述第二阈值,将所述延迟窗口的状态设置为语音过渡状态,返回执行缓存这一步骤;
当所述延迟窗口的状态为语音过渡状态时,确定所述延迟窗口中缓存的所述待处理音频信号的帧数是否等于第三阈值;
若所述延迟窗口中缓存的所述待处理音频信号的帧数等于第三阈值,基于每一帧所述待处理音频信号的判决结果,判断所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量是否大于第四阈值;
若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量大于第四阈值,将所述延迟窗口中缓存的所有所述待处理音频信号作为活动语音帧输出,返回执行缓存这一步骤;
若所述延迟窗口中缓存的所述待处理音频信号为活动语音帧的数量小于等于第四阈值,将所述延迟窗口的状态设置为非语音状态,返回执行缓存这一步骤。


4.根据权利要求3所述的方法,其特征在于,所述比较每一帧所述待处理音频信号与自身对应的所述增强信号,得到每一帧所述待处理音频信号的判决结果,包括:
基于所述背景噪声、每一帧所述待处理音频信号与自身对应的所述增强信号,确定每一帧所述待处理音频信号为活动语音帧的概率;
针对每一帧所述待处理音频信号,若所述概率大于阈值,确定所述待处理音频信号为活动语音帧。


5.一种活动语音检测系统,其特征在于,所述系统包括:
获取单元,用于实时获取待处理音频数据流,所述待处理音频数据流由多帧待处理音频信号构成;
第一确定单元,用于确定每一帧所述待处理音频信号的自相关性特征和功率谱;
第二确定单元,用于基于每一帧所述待处理音频信号的自相关性特征和功率谱...

【专利技术属性】
技术研发人员:卢传泽
申请(专利权)人:广州三人行壹佰教育科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1