一种音频数据的自动增益控制方法与装置制造方法及图纸

技术编号:15331953 阅读:55 留言:0更新日期:2017-05-16 15:06
本发明专利技术公开了一种音频数据自动增益控制方法与装置,其中方法包括:对音频数据进行分帧处理,并提取各帧数据的特征参数;根据当前帧数据的特征参数与语音类别高斯混合模型得到当前帧数据的语音类条件概率;根据当前帧数据的特征参数与噪声类别高斯混合模型得到当前帧数据的噪声类条件概率,并计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;当属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧,按照语音帧增益控制规则控制其增益;反之,将当前帧数据判定为噪声帧,按照噪声帧增益控制规则控制其增益。本发明专利技术技术方案极大地提高了语音与噪声的识别水平,并依此进行自动增益控制,有效改善了使用者的体验。

Automatic gain control method and device for audio data

The invention discloses an audio data automatic gain control method and device, wherein the method comprises the following steps: the audio data framing processing, and extracting the characteristic parameters of each frame data; according to the characteristic parameters and the voice category of Gauss mixture model in current frame data obtained according to the current conditions of the voice frames according to the characteristic parameters and noise probability; the category of Gauss mixture model in current frame data noise condition of current frame data probability, and calculate the probability of the current frame data to speech frames and the probability of belonging to the noise frame; when the probability is greater than the probability of belonging to the speech frame belongs to the noise frame and the current frame of audio data is determined according to the speech speech frame, frame gain control rules to control the gain; on the other hand, the current frame data to determine the noise frame, according to the noise gain control rules to control the gain frame. The technical proposal of the invention greatly improves the recognition level of speech and noise, and automatic gain control is carried out according to the invention, thereby effectively improving the user experience.

【技术实现步骤摘要】
一种音频数据的自动增益控制方法与装置
本专利技术涉及音频信号处理技术,尤其涉及一种音频数据的自动增益控制方法及装置。
技术介绍
在语音信号处理过程中,不同音频信号的音量强度往往是不一样的,且伴随有噪声,但作为用户,期望与每个人之间的通话都是相同的音量强度而不通过音量键的控制来实现,提升用户体验。现有的自动增益控制方法通过分析出音频信号中的语音部分和噪声部分,分别对这两部分进行增益控制。现有的自动增益控制方法都是通过时域分析来区分语音与噪声,这种区分方法的局限性较大,无法有效地区分语音和噪声的特征,往往会把语音识别为噪声,或者将噪声识别为语音,造成错误地对音频信号进行增益控制。例如,在人工耳蜗/助听器设备中,若错误地将噪声进行放大,对使用者的体验是非常差的,甚至会造成使用者严重的不舒适感。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种音频数据的自动增益控制方法与装置,能够精确有效地区分音频数据中的语音部分和噪声部分,并分别对其进行增益控制,极大地提高了用户的舒适度。为了实现上述目的,本专利技术一方面提供了一种音频数据的自动增益控制方法,包括:对音频数据进行分帧处理,并提取各帧数据的特征参数;根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率;以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型,得到所述当前帧数据的噪声类条件概率;根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧;以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时,将当前帧数据判定为噪声帧;当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。优选地,所述音频数据的自动增益控制方法还包括构建语音类别高斯混合模型的步骤以及构建噪声类别高斯混合模型的步骤;所述构建语音类别高斯混合模型的步骤具体包括:通过与所述音频数据相同的处理方法,对语音样本数据进行分帧处理并提取各帧数据的特征参数;根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别;获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到语音类别高斯混合模型;所述构建噪声类别高斯混合模型的步骤具体包括:通过与所述音频数据相同的处理方法,对噪声样本数据进行分帧处理并提取各帧数据的特征参数;根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别;获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到噪声类别高斯混合模型。优选地,所述根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率,包括:根据所述当前帧数据的语音类条件概率p(xT/Y1)与所述当前帧数据的噪声类条件概率p(xT/Y2)结合贝叶斯公式,计算所述当前帧数据属于语音帧的后验概率p’(Y1/xT)以及属于噪声帧的后验概率p’(Y2/xT);根据p(Y1/xT)=α1·p(Y1/xT-W+1)+…αW-1·p(Y1/xT-1)+αW·p'(Y1/xT)计算p(Y1/xT);根据p(Y2/xT)=α1·p(Y2/xT-W+1)+…αW-1·p(Y2/xT-1)+αW·p'(Y2/xT)计算p(Y2/xT);其中,T是所述当前帧数据在所述音频数据中的帧序号;XT为所述当前帧数据的特征参数;T-W+1是所述当前帧数据的前W帧的帧序号;W与σ为预设值。优选地,对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。优选地,所述当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益,包括:当所述当前帧数据被判定为语音帧时,获取所述当前帧数据的时域能量并计算预设的期望能量值与所述时域能量的比值,将所述当前帧数据的各数据点乘以所述比值以放大或缩小所述当前帧数据;当所述当前帧数据被判定为噪声帧时,保持所述当前帧数据不变。本专利技术实施例另一方面还提供一种音频数据的自动增益控制装置,包括:预处理模块,用于对音频数据进行分帧处理,并提取各帧数据的特征参数;第一概率获取模块,用于根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率;以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型,得到所述当前帧数据的噪声类条件概率;第二概率获取模块,用于根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;判定模块,用于当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧;以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时,将当前帧数据判定为噪声帧;增益控制模块,用于当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。优选地,所述音频数据的自动增益控制装置还包括第一模型构建模块以及第二模型构建模块;所述第一模型构建模块包括:第一预处理单元,用于通过与所述音频数据相同的处理方法,对语音样本数据进行分帧处理并提取各帧数据的特征参数;第一分类单元,用于根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别;第一初始参数获取单元,用于获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;第一模型优化单元,用于通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到语音类别高斯混合模型;所述第二模型构建模块包括:第二预处理单元,用于通过与所述音频数据相同的处理方法,对噪声样本数据进行分帧处理并提取各帧数据的特征参数;第二分类单元,用于根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别;第二初始参数获取单元,用于获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;第二模型优化单元,用于通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到噪声类别高斯混合模型。优选地,所述第二概率获取模块包括:后验概率获取单元,用于根据所述当前帧数据的语音类条件概率p(xT/Y1)与所述当前帧数据的噪声类条件概率p(xT/Y2)结合贝叶斯公式,计算所述当前帧数据属于语音帧的后验概率p’(Y1/xT)以及属于噪声帧的后验概率p’(Y2/xT);概率加权平滑单元,用于根据p(Y1/xT)=α1·p(Y1/xT-W本文档来自技高网...
一种音频数据的自动增益控制方法与装置

【技术保护点】
一种音频数据的自动增益控制方法,其特征在于,包括:对音频数据进行分帧处理,并提取各帧数据的特征参数;根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率;以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型,得到所述当前帧数据的噪声类条件概率;根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧;以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时,将当前帧数据判定为噪声帧;当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。

【技术特征摘要】
1.一种音频数据的自动增益控制方法,其特征在于,包括:对音频数据进行分帧处理,并提取各帧数据的特征参数;根据当前帧数据的特征参数与预先配置的语音类别高斯混合模型得到所述当前帧数据的语音类条件概率;以及根据所述当前帧数据的特征参数与预先配置的噪声类别高斯混合模型,得到所述当前帧数据的噪声类条件概率;根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率;当所述当前帧数据属于语音帧的概率大于属于噪声帧的概率时,将当前帧音频数据判定为语音帧;以及当所述当前帧数据属于语音帧的概率小于属于噪声帧的概率时,将当前帧数据判定为噪声帧;当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益。2.如权利要求1所述的音频数据的自动增益控制方法,其特征在于,所述音频数据的自动增益控制方法还包括构建语音类别高斯混合模型的步骤以及构建噪声类别高斯混合模型的步骤;所述构建语音类别高斯混合模型的步骤具体包括:通过与所述音频数据相同的处理方法,对语音样本数据进行分帧处理并提取各帧数据的特征参数;根据K-means算法将所述语音样本数据的特征参数划分为若干个语音类别;获取每个语音类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;通过EM算法对每个语音类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到语音类别高斯混合模型;所述构建噪声类别高斯混合模型的步骤具体包括:通过与所述音频数据相同的处理方法,对噪声样本数据进行分帧处理并提取各帧数据的特征参数;根据K-means算法将所述噪声样本数据的特征参数划分为若干个噪声类别;获取每个噪声类别所对应的高斯子模型的初始权重、初始均值以及初始协方差;通过EM算法对每个噪声类别所对应的高斯子模型的权重、均值以及协方差进行迭代优化,得到噪声类别高斯混合模型。3.如权利要求1所述的音频数据的自动增益控制方法,其特征在于,所述根据所述当前帧数据的语音类条件概率与所述当前帧数据的噪声类条件概率计算所述当前帧数据属于语音帧的概率以及属于噪声帧的概率,包括:根据所述当前帧数据的语音类条件概率p(xT/Y1)与所述当前帧数据的噪声类条件概率p(xT/Y2)结合贝叶斯公式,计算所述当前帧数据属于语音帧的后验概率p’(Y1/xT)以及属于噪声帧的后验概率p’(Y2/xT);根据p(Y1/xT)=α1·p(Y1/xT-W+1)+…αW-1·p(Y1/xT-1)+αW·p'(Y1/xT)计算p(Y1/xT);根据p(Y2/xT)=α1·p(Y2/xT-W+1)+…αW-1·p(Y2/xT-1)+αW·p'(Y2/xT)计算p(Y2/xT);其中,T是所述当前帧数据在所述音频数据中的帧序号;XT为所述当前帧数据的特征参数;T-W+1是所述当前帧数据的前W帧的帧序号;W与σ为预设值。4.如权利要求1所述的音频数据的自动增益控制方法,其特征在于,对所述音频数据进行分帧处理后得到的任意相邻的两帧数据具有重叠的部分。5.如权利要求1~4任一项所述的音频数据的自动增益控制方法,其特征在于,所述当所述当前帧数据被判定为语音帧时,按照预先配置的语音帧增益控制规则控制所述当前帧数据的增益,以及所述当前帧数据被判定为噪声帧时按照预先配置的噪声帧增益控制规则控制所述当前帧数据的增益,包括:当所述当前帧数据被判定为语音帧时,获取所述当前帧数据的时域能量并计算预设的期望能量值与所述时域能量的比值,将所述当前帧数据的各数据点乘以所述比值以放大或缩小所述当前帧数据;当所述当前帧数据被判定为噪声帧时,保持所述当前帧数据不变。6.一种音...

【专利技术属性】
技术研发人员:雷延强程雪峰
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1