语音活性检测方法、相关装置和设备制造方法及图纸

技术编号:17347924 阅读:52 留言:0更新日期:2018-02-25 14:27
本发明专利技术公开了一种语音活性检测方法,包括:接收语音数据;语音数据包括多帧语音信号;计算一帧语音信号的能量以及谱熵;将语音信号的能量开根号,或者将语音信号的谱熵开根号;并根据开根号后的能量或者开根号后的谱熵,计算语音信号的谱熵能量根;在语音信号的谱熵能量根小于第一预设阈值的情况下,判断出语音信号为非语音帧;或者在语音信号的谱熵能量根不小于第一预设阈值的情况下,判断出语音信号为语音帧本发明专利技术还公开了一种语音活性检测装置和语音活性检测设备,解决了现有技术基于短时能量和谱熵的方案阀值设置受录音环境影响大,或基于谱熵能量积的方案不能有效的反应语音帧的特性,造成不能准确检测语音段的技术问题。

Speech activity detection methods, related devices and equipment

The invention discloses a voice activity detection method comprises: receiving the voice data; the voice data includes multiple frames of speech signal; calculating a frame of speech signal energy and spectral entropy; speech signal energy spectrum entropy will open the root, or the square root of the speech signal; and according to the spectral entropy of the square root of the energy or the square root, root energy spectrum entropy calculation of the speech signal in speech signal spectrum entropy; energy root is smaller than the first preset threshold conditions, determine the voice signal as the non speech frames; or in the energy spectrum entropy root of speech signal is not smaller than a first preset threshold, judge the speech signal into a speech frame the invention also discloses a voice activity detection device and voice activity detection equipment, the existing technology of short-time energy and spectral entropy scheme based on threshold set by the recording environment greatly solved, Or the scheme based on the energy product of spectral entropy can not effectively respond to the characteristics of speech frames, which causes the problem of inaccurate detection of speech segments.

【技术实现步骤摘要】
语音活性检测方法、相关装置和设备
本专利技术涉及计算机领域,尤其涉及语音活性检测方法、语音活性检测装置和语音活性检测设备。
技术介绍
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。随着语音识别技术的发展,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音活性检测(VoiceActivityDetection,VAD)又称语音活动检测、语音端点检测、语音边界检测等等,是用于语音处理的技术,用于检测语音信号是否存在。VAD是语音识别技术的标配。现有技术中,VAD算法是根据每个语音帧计算出来的特征(例如短时能量,谱熵,谱熵能量积等)与阀值进行比较,从而来判断该语音帧是不是语音帧。然而,基于短时能量和谱熵的方案,其阀值不好设置;不同的设备,不同的录音环境对阀值的影响很大;基于谱熵能量积的方案往往不能有效的反应语音帧的特性,不能准确检测语音段。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种语音活性检测方法、一种语音活性检测装置、一种语音活性检测设备以及一种计算机可读存储介质,解决现有技术基于短时能量和谱本文档来自技高网...
语音活性检测方法、相关装置和设备

【技术保护点】
一种语音活性检测方法,其特征在于,包括:接收语音数据;所述语音数据包括多帧语音信号;计算一帧语音信号的能量以及谱熵;将所述语音信号的能量开根号,或者将所述语音信号的谱熵开根号;并根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根;在所述语音信号的谱熵能量根小于第一预设阈值的情况下,判断出所述语音信号为非语音帧;或者在所述语音信号的谱熵能量根不小于第一预设阈值的情况下,判断出所述语音信号为语音帧。

【技术特征摘要】
1.一种语音活性检测方法,其特征在于,包括:接收语音数据;所述语音数据包括多帧语音信号;计算一帧语音信号的能量以及谱熵;将所述语音信号的能量开根号,或者将所述语音信号的谱熵开根号;并根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根;在所述语音信号的谱熵能量根小于第一预设阈值的情况下,判断出所述语音信号为非语音帧;或者在所述语音信号的谱熵能量根不小于第一预设阈值的情况下,判断出所述语音信号为语音帧。2.如权利要求1所述的方法,其特征在于,所述根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根,包括:在将所述语音信号的能量开根号之后,将开根号后的能量乘以所述语音信号的谱熵,得到所述语音信号的谱熵能量根。3.如权利要求1所述的方法,其特征在于,所述根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根,包括:在将所述语音信号的谱熵开根号之后,将开根号后的谱熵乘以所述语音信号的能量,得到所述语音信号的谱熵能量根。4.如权利要求1所述的方法,其特征在于,所述根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根,包括:在将所述语音信号的谱熵开根号,以及将所述语音信号的谱熵开根号之后,将开根号后的能量乘以开根号后的谱熵,得到所述语音信号的谱熵能量根。5.如权利要求1所述的方法,其特征在于,所述计算一帧语音信号的能量以及谱熵之后,所述将所述语音信号的能量开根号,或者将所述语音信号的谱熵开根号之前,还包括:计算所述多帧语音信号中的前N帧的谱熵能量根均值HE(0);其中所述H(l)为第l帧语音信号的谱熵,所述E(l)为第l帧语音信号的谱熵的短时能量;所述第一预设阈值包括αHE(0),所述α的取值范围包括[1,2]。6.如权利要求5所述的方法,其特征在于,所述根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根,包括:通过公式来计算第k帧语音信号的谱熵能量根HE(k);所述所述k大于所述N。7.如权利要求6所述的方法,其特征...

【专利技术属性】
技术研发人员:刘继忠
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1