音频编码方法、装置、计算机可读存储介质及设备制造方法及图纸

技术编号:25047562 阅读:18 留言:0更新日期:2020-07-29 05:36
本申请公开了一种音频编码方法、装置、计算机可读存储介质及设备,属于信号处理技术领域。包括:以第一采样率进行音频信号采集;将采集到的音频信号由时域变换至频域,获取频域上每个频点的第一功率谱;获取频域上每个频点的噪声功率谱估计值和听觉感知系数;听觉感知系数与听觉响度呈正相关,听觉响度用于描述声音的响亮程度,听觉感知系数用于描述人耳对不同频点声音的听觉感知程度;根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数,确定第二采样率;根据第二采样率进行音频编码。本申请实现了基于音频信号的听觉感知特征自适应地动态确定采样率,这样确定出来的采样率与音频信号的自身特性更为适配,能够有效指导音频编码。

【技术实现步骤摘要】
音频编码方法、装置、计算机可读存储介质及设备
本申请涉及信号处理
,特别涉及一种音频编码方法、装置、计算机可读存储介质及设备。
技术介绍
音频编码是指对原始采集到的无损音频信号进行时域和频域上的冗余分析和压缩处理,从而降低语音传输带宽和存储空间,同时保持较好的语音质量。其中,音频编码器的常规输入参数包括但不限于:采样率、通道数和编码码率等。在这些常规输入参数中,由于采样率对计算存储开销和网络传输开销有着至关重要的影响,因此选择合适的采样率来指导音频编码具有重要意义。相关技术中,音频编码器的采样率被设置为一个固定值,而这个采样率取值主要是基于用户对语音质量的要求(高或低)、硬件设备的音频信号采集、播放及处理能力、网络带宽适配度等外部因素决定的。例如,不同硬件设备支持的最大采样率不同,比如8kHz(赫兹)、16kHz、24kHz、48kHz、96kHz等;不同音频编码器支持的采样率不同,比如窄带音频编码器G.729仅支持8KHz采样率,而silk音频编码器可以支持8kHz、12kHz、16kHz、24kHz等多种采样率。针对上述方案,由于单纯基于外部因素来确定采样率,因此确定出来的采样率可能并不太合适。比如确定出来的采样率可能过高,而高采样率会过度消耗计算存储资源和网络带宽资源,因为采样率越高需要处理的数据量便越大。比如,48kHz采样率下需要处理的数据量要比16kHz采样率下需要处理的数据量大3倍,这会极大增加计算存储开销,同时音频编码后的码流大小也会骤增,进而大幅增加网络传输开销。基于此,时下很有必要提出一种新的采样率确定方案,以有效指导音频编码过程。
技术实现思路
本申请实施例提供了一种音频编码方法、装置、计算机可读存储介质及设备,实现了基于音频信号的听觉感知特征来自适应地动态确定采样率,这样确定出来的采样率与音频信号的自身特性更为适配,数值既不会过高也不会过低,能够有效指导音频编码过程。所述技术方案包括如下内容。一方面,提供了一种音频编码方法,所述方法包括:以第一采样率进行音频信号采集;将采集到的音频信号由时域变换至频域,获取频域上每个频点的第一功率谱;获取频域上每个频点的噪声功率谱估计值和听觉感知系数;其中,所述听觉感知系数与听觉响度呈正相关,所述听觉响度用于描述声音的响亮程度,所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度;根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数,确定第二采样率;根据所述第二采样率进行音频编码。另一方面,提供了一种音频编码装置,所述装置包括:采集模块,被配置为以第一采样率进行音频信号采集;第一获取模块,被配置为将采集到的音频信号由时域变换至频域,获取频域上每个频点的第一功率谱;第二获取模块,被配置为获取频域上每个频点的噪声功率谱估计值和听觉感知系数;其中,所述听觉感知系数与听觉响度呈正相关,所述听觉响度用于描述声音的响亮程度,所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度;确定模块,被配置为根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数,确定第二采样率;根据所述第二采样率进行音频编码。在一种可能的实现方式中,所述确定模块,包括:第一确定单元,被配置为根据频域上每个频点的第一功率谱和噪声功率谱估计值,确定频域上每个频点的第二功率谱;第二确定单元,被配置为根据频域上每个频点的第二功率谱和获取到的听觉感知系数,确定频域上每个频点的听觉感知功率谱;第三确定单元,被配置为根据频域上每个频点的听觉感知功率谱和N个候选采样率,确定所述第二采样率;其中,所述N个候选采样率小于所述第一采样率,N的取值为正整数。在一种可能的实现方式中,所述第二获取模块,包括:第一获取单元,被配置为对声学等响曲线数据进行线性插值,得到频域上每个频点的听觉响度;其中,声学等响曲线用于描述等响条件下声压级与声波频率之间的对应关系;根据频域上每个频点的听觉响度,确定频域上每个频点的听觉感知系数。在一种可能的实现方式中,所述第三确定单元,包括:第一处理子单元,被配置为对于第i个音频帧,对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理,得到所述第i个音频帧中各个频点的听觉感知平滑功率谱;第一获取子单元,被配置为获取在第j个候选采样率下所述第i个音频帧中各个频点的听觉感知平滑功率谱的总和;第二获取子单元,被配置为根据获取到的听觉感知平滑功率谱的总和,获取所述第i个音频帧在所述第j个候选采样率下的感知能量损失率;第一确定子单元,被配置为将得到的N个感知能量损失率中小于目标门限值的最低候选采样率,作为所述第二采样率;其中,i和j的取值为正整数,0<j≤N,所述第i个音频帧为当前处理的音频帧,所述音频帧是通过对所述采集到的音频信号进行分帧处理后得到的,且i的取值不大于划分的音频帧总数。在一种可能的实现方式中,所述第一处理子单元,被配置为:获取第i-1个音频帧中第k个频点的听觉感知平滑功率谱;其中,k的取值为正整数;根据指定平滑加权因子,对所述第i个音频帧中第k个频点的听觉感知功率谱、所述第i-1个音频帧中第k个频点的听觉感知平滑功率谱进行加权求和处理,得到所述第i个音频帧中第k个频点的听觉感知平滑功率谱。在一种可能的实现方式中,所述第一获取模块,被配置为:对采集到的音频信号依次进行分帧处理和加窗处理;对经过分帧处理和加窗处理后的音频信号进行傅里叶变换;根据傅里叶变换结果,获取每个音频帧中各个频点的功率谱,得到频域上每个频点的第一功率谱。在一种可能的实现方式中,所述第二获取模块包括第二获取单元;所述第二获取单元,包括:第二处理子单元,被配置为对每个音频帧中各个频点的功率谱进行平滑处理,得到每个音频帧中各个频点的平滑功率谱,所述平滑功率谱中携带噪音信号;第三获取子单元,被配置为获取每个音频帧中各个频点的噪声功率谱初始值;第二确定子单元,被配置为根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值,确定每个音频帧中各个频点的语音存在概率;第三确定子单元,被配置为根据每个音频帧中各个频点的平滑功率谱和语音存在概率,确定每个音频帧中各个频点的噪声功率谱估计值。在一种可能的实现方式中,所述第二处理子单元,被配置为:对于第i个音频帧中第k个频点,确定所述第k个频点的相邻频点;根据频域平滑加权因子组中分别与所述第k个频点和所述相邻频点对应的权重,对所述第k个频点的功率谱和所述相邻频点的功率谱进行加权求和处理,得到所述第i个音频帧中第k个频点的频域平滑功率谱;获取第i-1个音频帧中第k个频点的频域平滑功率谱;根据时域平滑加权因子,对所述第i个音频帧中第k个频点的频域平滑功率谱、所述第i-1个音频帧中第k个频点的频域平滑功率谱进行加权求和处理,得到所述第i个音频帧中第k个频点的平滑功率谱;其中,i和k本文档来自技高网
...

【技术保护点】
1.一种音频编码方法,其特征在于,所述方法包括:/n以第一采样率进行音频信号采集;/n将采集到的音频信号由时域变换至频域,获取频域上每个频点的第一功率谱;/n获取频域上每个频点的噪声功率谱估计值和听觉感知系数;其中,所述听觉感知系数与听觉响度呈正相关,所述听觉响度用于描述声音的响亮程度,所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度;/n根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数,确定第二采样率;根据所述第二采样率进行音频编码。/n

【技术特征摘要】
1.一种音频编码方法,其特征在于,所述方法包括:
以第一采样率进行音频信号采集;
将采集到的音频信号由时域变换至频域,获取频域上每个频点的第一功率谱;
获取频域上每个频点的噪声功率谱估计值和听觉感知系数;其中,所述听觉感知系数与听觉响度呈正相关,所述听觉响度用于描述声音的响亮程度,所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度;
根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数,确定第二采样率;根据所述第二采样率进行音频编码。


2.根据权利要求1所述的方法,其特征在于,所述根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数,确定第二采样率,包括:
根据频域上每个频点的第一功率谱和噪声功率谱估计值,确定频域上每个频点的第二功率谱;
根据频域上每个频点的第二功率谱和获取到的听觉感知系数,确定频域上每个频点的听觉感知功率谱;
根据频域上每个频点的听觉感知功率谱和N个候选采样率,确定所述第二采样率;其中,N的取值为正整数。


3.根据权利要求1所述的方法,其特征在于,所述获取频域上每个频点的噪声功率谱估计值和听觉感知系数,包括:
对声学等响曲线数据进行线性插值,得到频域上每个频点的听觉响度;其中,声学等响曲线用于描述等响条件下声压级与声波频率之间的对应关系;
根据频域上每个频点的听觉响度,确定频域上每个频点的听觉感知系数。


4.根据权利要求2所述的方法,其特征在于,所述根据频域上每个频点的听觉感知功率谱和N个候选采样率,确定所述第二采样率,包括:
对于第i个音频帧,对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理,得到所述第i个音频帧中各个频点的听觉感知平滑功率谱;
获取在第j个候选采样率下所述第i个音频帧中各个频点的听觉感知平滑功率谱的总和;
根据获取到的听觉感知平滑功率谱的总和,获取所述第i个音频帧在所述第j个候选采样率下的感知能量损失率;
将得到的N个感知能量损失率中小于目标门限值的最低候选采样率,作为所述第二采样率;
其中,i和j的取值为正整数,0<j≤N,所述第i个音频帧为当前处理的音频帧,所述音频帧是通过对所述采集到的音频信号进行分帧处理后得到的,且i的取值不大于划分的音频帧总数。


5.根据权利要求4所述的方法,其特征在于,所述对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理,得到所述第i个音频帧中各个频点的听觉感知平滑功率谱,包括:
获取第i-1个音频帧中第k个频点的听觉感知平滑功率谱;其中,k的取值为正整数;
根据指定平滑加权因子,对所述第i个音频帧中第k个频点的听觉感知功率谱、所述第i-1个音频帧中第k个频点的听觉感知平滑功率谱进行加权求和处理,得到所述第i个音频帧中第k个频点的听觉感知平滑功率谱。


6.根据权利要求1所述的方法,其特征在于,所述将采集到的音频信号由时域变换至频域,获取频域上每个频点的第一功率谱,包括:
对采集到的音频信号依次进行分帧处理和加窗处理;
对经过分帧处理和加窗处理后的音频信号进行傅里叶变换;
根据傅里叶变换结果,获取每个音频帧中各个频点的功率谱,得到频域上每个频点的第一功率谱。


7.根据权利要求1所述的方法,其特征在于,所述获取频域上每个频点的噪声功率谱估计值和听觉感知系数,包括:
对每个音频帧中各个频点的功率谱进行平滑处理,得到每个音频帧中各个频点的平滑功率谱,所述平滑功率谱中携带噪音信号;
获取每个音频帧中各个频点的噪声功率谱初始值;
根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值,确定每个音频帧中各个频点的语音存在概率;
根据每个音频帧中各个频点的平滑功率谱和语音存在概率,确定每个音频帧中各个频点的噪声功率谱估计值。


8.根据权利要求7所述的方法,其特征在于,所述对每个音频帧中各个频点的功率谱进行平滑处理,包括:
对于第i个音频帧中第k个频点,确定所述第k个频点的相邻频点;...

【专利技术属性】
技术研发人员:梁俊斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1