实时检测音频信号中的语音活动制造技术

技术编号：26794774 阅读：36 留言：0更新日期：2020-12-22 17:11

提供了实时检测音频信号中的语音活动。用于检测语音活动的系统和方法。该系统包括音频源和电子处理器。电子处理器被配置为从音频源接收第一音频信号，缓冲第一音频信号，向缓冲的第一音频信号添加随机噪声，以及对第一音频流滤波以创建滤波信号。电子处理器然后确定滤波信号的每个帧的信号熵，确定在滤波信号的开始处出现的滤波信号的第一多个帧的平均信号熵，并且将滤波信号的每个帧的信号熵与平均信号熵进行比较。基于该比较，电子处理器确定位于滤波信号的第一帧中的第一语音端点。

全部详细技术资料下载

【技术实现步骤摘要】
实时检测音频信号中的语音活动
实施例涉及实时检测音频信号中的语音活动。
技术介绍
语音活动检测是依赖于语音信号的系统、尤其是交互式语音系统中的重要组成部分，所述交互式语音系统诸如自动语音识别系统、语音记录系统、自动消息检测系统、移动通信技术等。现有技术系统利用诸如能量、过零和频谱之类的特征来探知音频信号中的语音。一些先进的系统采用预先训练的模型来在音频信号中的语音帧与非语音帧之间进行区分。然而，取决于接收的音频信号的非语音或背景噪声的特性，用于端点检测的现有技术系统的性能可能显著变化。
技术实现思路
本专利技术描述了一种用以实时鲁棒地检测音频信号中语音的开始和结束点的轻量方法和系统。从音频信号开始处的短音频区段观察背景音频环境，并且然后基于音频信号频谱的所计算的熵统计量来确定音频信号的语音和非语音部分。然后，基于从音频信号的所确定的语音和非语音部分累积的熵统计量来确定活动语音的开始和结束点。一个实施例提供了一种用于自动检测音频信号中语音的开始和结束点的系统。该系统包括音频源和电子处理器。电...

【技术保护点】
1.一种用于自动检测音频信号中的语音端点的系统，所述系统包括：/n音频源；和/n电子处理器，其被配置为/n从音频源接收第一音频信号；/n缓冲第一音频信号；/n向缓冲的第一音频信号添加随机噪声；/n对第一音频流滤波以创建滤波信号；/n确定所述滤波信号的每个帧的信号熵；/n确定所述滤波信号的第一多个帧的平均信号熵，所述第一多个帧在所述滤波信号的开始处出现；/n将所述滤波信号的每个帧的信号熵与平均信号熵进行比较；以及/n基于所述比较，确定位于所述滤波信号的第一帧中的第一语音端点。/n

【技术特征摘要】
20190621 US 16/4487101.一种用于自动检测音频信号中的语音端点的系统，所述系统包括：
音频源；和
电子处理器，其被配置为
从音频源接收第一音频信号；
缓冲第一音频信号；
向缓冲的第一音频信号添加随机噪声；
对第一音频流滤波以创建滤波信号；
确定所述滤波信号的每个帧的信号熵；
确定所述滤波信号的第一多个帧的平均信号熵，所述第一多个帧在所述滤波信号的开始处出现；
将所述滤波信号的每个帧的信号熵与平均信号熵进行比较；以及
基于所述比较，确定位于所述滤波信号的第一帧中的第一语音端点。

2.根据权利要求1所述的系统，其中，使用带限滤波器对第一音频信号滤波。

3.根据权利要求2所述的系统，其中，带限滤波器具有250赫兹的下限和6000赫兹的上限。

4.根据权利要求1所述的系统，其中，第一帧出现在所述滤波信号的第一多个帧之后。

5.根据权利要求1所述的系统，其中，电子处理器进一步被配置为确定所述滤波信号的第二帧中的第二语音端点，第二帧在所述滤波信号中比第一帧晚出现。

6.根据权利要求5所述的系统，其中，第一语音端点是语音的开始点，并且第二语音端点是语音的结束点。

7.根据权利要求5所述的系统，其中，当第二帧之后的预定数量的帧具有在偏移阈值以下的信号熵时，确定第二语音端点。

8.根据权利要求7所述的系统，其中，基于平均信号熵和权重参数来确定偏移阈值。

9.根据权利要求1所述的系统，其中，当第一帧之后的预定数量的帧具有大于开端阈值的信号熵时，确定第一语音端点。

10.根据权利要求9所述的系统，其中，基于平均信号熵和权重参数来确定开端阈值。

【专利技术属性】
技术研发人员：P·安格吉迪特拉库尔，H·金，
申请(专利权)人：罗伯特·博世有限公司，
类型：发明
国别省市：德国;DE

全部详细技术资料下载我是这个专利的主人