【技术实现步骤摘要】
音频数据处理方法、装置、设备及存储介质
[0001]本申请涉及人工智能技术等领域,尤其涉及一种音频数据处理方法、装置、设备及存储介质。
技术介绍
[0002]目前,基于互联网的IP语音传输(Voice over Internet Protocol,VoIP)通信和蜂窝通信等通信系统已在多种通信场景中普及,例如,网络电话、网络会议等。由于讲话者所处环境的复杂与多样,所以通信系统需要使用多种语音信号处理算法,以此保证通信质量。实践中发现,目前的语音信号处理算法的复杂度过高,这会导致在智能手机等资源受限的平台上出现资源消耗过高,甚至导致通话出现卡顿现象。
技术实现思路
[0003]本申请实施例提供一种音频数据处理方法、装置、设备及存储介质,能够降低音频数据的处理复杂度,并降低计算机设备的资源消耗,提高通信的流畅度。
[0004]本申请实施例一方面提供一种音频数据处理方法,包括:对待处理的原始音频数据进行特征提取,得到所述原始音频数据的音频特征信息,对所述原始音频数据进行频域转换,得到所述原始音频数据的频域音 ...
【技术保护点】
【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:对待处理的原始音频数据进行特征提取,得到所述原始音频数据的音频特征信息,对所述原始音频数据进行频域转换,得到所述原始音频数据的频域音频数据;根据所述频域音频数据对所述原始音频数据进行噪声抑制处理,得到所述原始音频数据的第一噪声抑制增益,根据所述音频特征信息对所述原始音频数据进行噪声抑制处理,得到所述原始音频数据的第二噪声抑制增益;根据所述频域音频数据和所述音频特征信息,对所述原始音频数据进行啸叫抑制处理,得到所述原始音频数据的啸叫抑制增益;根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益,对所述频域音频数据进行时域转换处理,得到目标音频数据。2.如权利要求1所述的方法,其特征在于,所述频域音频数据包括M个频点分别对应的原始音频能量,一个频点与所述原始音频数据中的一个音频数据段对应,M为大于1的正整数;所述根据所述频域音频数据和所述音频特征信息,对所述原始音频数据进行啸叫抑制处理,得到所述原始音频数据的啸叫抑制增益,包括:从所述音频特征信息中,获取所述M个频点分别对应的基音能量;根据所述M个频点分别对应的基音能量,确定所述M个频点分别对应的语音数据概率;所述语音数据概率为用于反映频点对应音频数据段包括语音数据的概率;根据所述M个频点分别对应的原始音频能量和所述音频特征信息,确定所述M个频点分别对应的初始啸叫概率;所述初始啸叫概率为用于反映频点对应的音频数据段包括啸叫数据的初始概率;根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率,确定所述原始音频数据的啸叫抑制增益。3.如权利要求2所述的方法,其特征在于,所述根据所述M个频点分别对应的基音能量,确定所述M个频点分别对应的语音数据概率,包括:根据所述M个频点分别对应的基音能量,确定所述M个频点对应的基音能量分布;若所述基音能量分布反映所述M个频点中的频点M
i
对应的频率小于频率阈值,且所述频点M
i
对应的基音能量大于能量阈值,则将第一概率值,确定为所述频点M
i
对应的语音数据概率;i为小于或等于M的正整数;若所述基音能量分布反映所述频点M
i
对应的频率小于所述频率阈值,且所述频点M
i
对应的基音能量小于所述能量阈值,则将第二概率值,确定为所述频点M
i
对应的语音数据概率;所述第一概率值大于所述第二概率值。4.如权利要求2所述的方法,其特征在于,所述根据所述M个频点分别对应的原始音频能量和所述音频特征信息,确定所述M个频点分别对应的初始啸叫概率,包括:确定所述M个频点中的频点M
i
对应的原始音频能量与相邻频点对应的原始音频能量之间的相似度,作为能量相似度;所述相邻频点为所述M个频点中与所述频点M
i
之间具有播放相邻关系的频点;i为小于或等于M的正整数;确定所述频点M
i
对应的音频特征信息与所述相邻频点的音频特征信息之间的相似度,作为特征相似度;
根据所述频点M
i
的能量相似度和所述特征相似度,确定所述频点M
i
对应的初始啸叫概率。5.如权利要求4所述的方法,其特征在于,所述根据所述频点M
i
的能量相似度和所述特征相似度,确定所述频点M
i
对应的初始啸叫概率,包括:对所述频点M
i
的能量相似度和所述特征相似度进行求和处理,得到相似度总和;根据所述相似度总和,确定所述频点M
i
对应的初始啸叫概率;所述频点M
i
对应的相似度总和与所述频点M
i
对应的初始啸叫概率之间具有正相关关系。6.如权利要求2所述的方法,其特征在于,所述根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率,确定所述原始音频数据的啸叫抑制增益,包括:对所述M个频点进行划分,得到K个频点子带;K为小于M的正整数;累计所述K个频点子带中的频点子带K
j
内的频点的原始音频能量,得到所述频点子带K
j
对应的原始音频能量;j为小于或等于K的正整数;对所述频点子带K
j
对应的原始音频能量进行平滑处理,得到所述频点子带K
j
对应的平滑音频能量;若获取到所述K个频点子带分别对应的平滑音频能量,则根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量,确定所述原始音频数据的啸叫抑制增益。7.如权利要求6所述的方法,其特征在于,所述根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量,确定所述原始音频数据的啸叫抑制增益,包括:根据所述频点子带K
j
对应的平滑音频能量,确定所述频点子带K
j
为啸叫频带的概率;根据频点M
i
所属的频点子带为啸叫频带的概率、所述频点M
i
的初始啸叫概率以及语音数据概率,确定所述频点M
i
对应的目标啸叫概率;所述目标啸叫概率用于反映所述频点M
i
对应音频段包括啸叫数据的目标概率;根据所述频点M
i
对应的目标啸叫概率,确定所述频点M
i
对应的啸叫抑制增益;所述频点M
i
对应的啸叫抑制增益与所述频点M
i
对应的目标啸叫概率之间具有负相关关系;若获取到所述M个频点分别对应的啸叫抑制增益,则将所述M个频点分...
【专利技术属性】
技术研发人员:高毅,周健全,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。