音频数据的增益控制方法及装置制造方法及图纸

技术编号:12890877 阅读:78 留言:0更新日期:2016-02-18 00:46
本发明专利技术提供一种音频数据的增益控制方法及装置。本发明专利技术实施例通过获取第N帧音频数据和所述第N帧音频数据的VAD信息,以及根据期望幅度数值和所述第N帧音频数据,获得所述第N帧音频数据的期望增益,进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益,获得所述第N帧音频数据的控制增益,使得能够利用所述控制增益,对所述第N帧音频数据进行增益控制处理,从而将待识别音频数据的幅度数值控制在识别阈值之上,能够有效避免语音识别性能的降低。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及音频信号处理技术,尤其涉及一种音频数据的增益控制方法及装置。【
技术介绍
】随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用程序。有些应用程序中会涉及语音识别服务,例如,微信中的语音输入功能,搜索应用中的语音助手,等。然而,在语音识别服务中,通常要求采集的音频数据的幅度数值大于或等于一定的识别阈值,一旦音频数据的幅度数值小于该识别阈值,则识别性能就会大大降低。因此,亟需提供一种音频数据的增益控制方法及装置,以将待识别音频数据的幅度数值控制在识别阈值之上,避免语音识别性能的降低。【
技术实现思路
】本专利技术从多个方面提供一种音频数据的增益控制方法及装置,用以将待识别音频数据的幅度数值控制在识别阈值之上,避免语音识别性能的降低。本专利技术的一方面,提供一种音频数据的增益控制方法,包括:获取第N帧音频数据和所述第N帧音频数据的VAD信息,N为大于Μ的整数,Μ为大于或等于1的整数;根据期望幅度数值和所述第Ν帧音频数据,获得所述第Ν帧音频数据的期望增益;根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益;利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,包括:根据所述第Ν帧音频数据的VAD信息,确定所述第Ν帧音频数据是否为语音帧;若所述第Ν帧音频数据为语音帧,对所述第Ν帧音频数据的VAD信息和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息进行运算处理,以获得运算结果;若所述运算结果满足预先设置的控制条件,根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,包括:根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,选择Ρ个最小的期望增益,Ρ为大于1且小于或等于Μ的奇数,对所述Ρ个最小的期望增益进行中值滤波处理,以获得所述第Ν帧音频数据的最小增益;若所述第Ν帧音频数据的最小增益小于最小增益值,利用所述第Ν帧音频数据的最小增益更新所述最小增益值;若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值,维持所述最小增益值,并记录所述最小增益值的持续时间;根据所述最小增益值,获得所述第Ν帧音频数据的控制增益。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值,维持所述最小增益值,并记录所述最小增益值得持续时间之后,还包括:若所述最小增益值的持续时间大于最小增益跟踪窗长的Κ1倍,Κ1为大于0且小于1的数值,且所述第Ν帧音频数据的最小增益小于最小增益暂时值,利用所述第Ν帧音频数据的最小增益更新所述最小增益暂时值;若所述最小增益值的持续时间大于最小增益跟踪窗长的Κ2倍,Κ2为大于Κ1的数值,利用所述最小增益暂时值更新所述最小增益值,并将所述最小增益值的持续时间设置为最小增益跟踪窗长的Κ1倍,将所述最小增益暂时值恢复为初始值。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述最小增益值,获得所述第Ν帧音频数据的控制增益,包括:根据增益平滑因子、所述第Ν-l帧音频数据的控制增益和所述最小增益值,获得所述第Ν帧音频数据的控制增益。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,还包括:若所述第Ν帧音频数据的最小增益大于或等于所述最小增益值的Κ3倍,Κ3为指定数值,将所述最小增益值,作为所述第Ν帧音频数据的控制增益。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理,包括:若所述第Ν帧音频数据的控制增益小于或等于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理;若所述第Ν帧音频数据的控制增益大于所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益中最小期望增益,利用所述最小期望增益,对所述第Ν帧音频数据进行增益控制处理。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,还包括:若所述第Ν帧音频数据为噪声帧,利用对所述第Ν-l帧音频数据进行增益控制处理的增益,对所述第Ν帧音频数据进行增益控制处理。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益,还包括:若所述运算结果不满足预先设置的控制条件,利用对所述第Ν-l帧音频数据进行增益控制处理的增益,对所述第Ν帧音频数据进行增益控制处理。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:获取第Q帧音频数据和所述第Q帧音频数据的VAD信息,Q为小于或等于Μ的整数;利用增益初始值,对所述第Q帧音频数据进行增益控制处理。本专利技术的另一方面,提供一种音频数据的增益控制装置,包括:获取单元,用于获取第Ν帧音频数据和所述第Ν帧音频数据的VAD信息,Ν为大于Μ的整数,Μ为大于或等于1的整数;期望增益获得单元,用于根据期望幅度数值和所述第Ν帧音频数据,获得所述第Ν帧音频数据的期望增益;控制增益获得单元,用于根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益,获得所述第Ν帧音频数据的控制增益;控制单元,用于利用所述控制增益,对所述第Ν帧音频数据进行增益控制处理。如上所述的方面和任一可能的实现方本文档来自技高网...

【技术保护点】
一种音频数据的增益控制方法,其特征在于,包括:获取第N帧音频数据和所述第N帧音频数据的VAD信息,N为大于M的整数,M为大于或等于1的整数;根据期望幅度数值和所述第N帧音频数据,获得所述第N帧音频数据的期望增益;根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益,获得所述第N帧音频数据的控制增益;利用所述控制增益,对所述第N帧音频数据进行增益控制处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐杨飞魏建强崔玮玮
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1