当前位置: 首页 > 专利查询>武汉大学专利>正文

神经网络训练方法、装置、电子设备及介质制造方法及图纸

技术编号:34255860 阅读:18 留言:0更新日期:2022-07-24 12:40
本发明专利技术公开了神经网络训练方法、装置、电子设备及介质,涉及音频信号编解码技术领域。训练方法包括以下步骤:基于神经网络的编码器将音频信号编码为深层次特征;量化器将深层次特征量化;解量化器将深层次特征量化索引解量化;基于神经网络的解码器将解量化的深层次特征解码,得到解码音频信号;基于心理声学模型计算输入音频信号的信掩比;听觉感知损失计算模块计算解码音频信号的听觉感知损失;训练模块基于引入听觉感知特性的损失函数训练编码器、量化码本以及解码器,直至损失收敛。根据本发明专利技术训练方法得到的编解码器,能够使解码音频信号的每一个频率成分的重建噪声尽可能地控制在掩蔽阈值内,从而达到提升解码音频信号感知质量的效果。知质量的效果。知质量的效果。

Neural network training methods, devices, electronic equipment and media

【技术实现步骤摘要】
神经网络训练方法、装置、电子设备及介质


[0001]本专利技术涉及音频信号编解码
,具体是涉及一种神经网络训练方法、装置、电子设备及介质。

技术介绍

[0002]人类听觉研究显示,人耳具有听觉掩蔽效应,即当两个频率相同或相近的声音同时发生时,较大的声音(掩蔽者)会降低人耳对较小声音(被掩蔽者)的感知能力;当两者强度相差较大时,被掩蔽者完全不能被人耳听见。掩蔽者能掩蔽住被掩蔽者的最大强度,称为掩蔽阈值。掩蔽效应除了跟掩蔽者的强度密切相关,还与音频信号的频率具有强相关性。
[0003]传统的感知音频编码方法利用人耳的掩蔽效应,将输入音频信号划分为各个子带,对每个子带信号编码时,将编码导致的重建误差的强度控制在该子带信号的掩蔽阈值内,实现压缩音频数据的同时,保证解码音频信号感知无失真。当传输码率较低时,基于人耳对低频更加敏感的特性,编码器会对低频成分分配更多的比特,从而导致音频高频成分损失较大甚至缺失。以MP3为例,当码率低于128kbps,15kHz以上的频率成分将被丢弃,解码音频质量降低。近年来,基于神经网络自编码器在音频编解码领域发展迅速,当码率为112kbps时,自编码器能够保留15kHz~22kHz的高频成分的同时保证较好的解码音频质量,这为更低码率下生成高质量的解码音频提供了可能。
[0004]现有技术中存在如下技术问题:当基于神经网路的自编码器的码率低至72kbps,解码后的音频信号虽能保留15kHz~22kHz的高频成分,但存在明显可闻噪声。其原因是自编码器仅使用频谱均方误差作为频域损失度量,对提取的内部特征进行量化时,以解码音频和原始音频频谱误差的平均值最小化作为计算目标。而人耳对不同频率成分的敏感度存在较大差异,仅靠这种平均化的误差处理不能确保每一种频率成分的重建误差都不超过掩蔽阈值,从而可能引入可闻噪声。因此,有必要在现有基于深度神经网络的音频编码方法中引入基于听觉感知特性的损失,以提升解码音频信号的感知质量。

技术实现思路

[0005]本专利技术的目的是为了克服上述
技术介绍
的不足,提供一种神经网络训练方法、装置、电子设备及介质,以提升解码音频信号的感知质量。
[0006]第一方面,提供一种神经网络训练方法,用于训练量化码本以及基于神经网络的编码器和解码器,包括以下步骤:
[0007]基于神经网络的编码器逐帧地提取输入音频信号的深层次特征;
[0008]量化器量化所述编码器提取的所述深层次特征,得到深层次特征的索引;
[0009]解量化器解量化编码深层次特征的索引,得到解量化的深层次特征;
[0010]量化损失计算模块基于深层次特征和解量化深层次特征计算用于训练量化码本的量化损失;
[0011]基于神经网络的解码器将解量化的深层次特征解码,得到解码音频信号;
[0012]时频损失计算模块基于所述输入音频信号和所述解码音频信号分别计算时域重建损失和频域重建损失,并以时域重建损失、频域重建损失以及量化损失之和作为损失函数;
[0013]基于心理声学模型的信掩比计算模块计算所述输入音频信号的信掩比;
[0014]听觉感知损失计算模块计算所述解码音频信号的听觉感知损失;
[0015]将听觉感知损失加入到所述的损失函数中,得到引入听觉感知特性的损失函数;
[0016]训练模块以引入听觉感知特性的损失函数训练编码器、量化码本以及解码器,直至损失收敛,得到训练后的编码器、量化码本以及解码器。
[0017]进一步地,所述听觉感知损失计算模块根据所述输入音频信号、所述解码音频信号和所述输入音频信号的信掩比,计算听觉感知损失。
[0018]进一步地,所述基于心理声学模型的信掩比计算模块计算所述输入音频信号的信掩比的步骤包括:
[0019]所述的输入音频信号逐帧地输入所述基于心理声学模型的信掩比计算模块,信掩比计算模块将每一帧输入音频信号在频域划分为多个子带,并逐子带地计算信掩比,得到所述输入音频信号的信掩比。
[0020]进一步地,所述听觉感知损失计算模块计算所述解码音频信号的听觉感知损失的步骤包括:
[0021]所述输入音频信号和所述解码音频信号逐帧地经时频变换后得到输入音频信号的能量谱和解码音频信号的能量谱;
[0022]将所述输入音频信号的能量谱和所述解码音频信号的能量谱采用与所述信掩比计算模块中相同的子带划分方式进行子带划分,得到输入音频信号子带的能量和解码音频信号子带的能量;
[0023]基于所述的输入音频信号子带的能量和所述解码音频信号子带的能量逐帧地计算每个子带的信噪比,得到所述解码音频信号的信噪比;
[0024]将所述输入音频信号的信掩比与所述解码音频信号信噪比逐帧逐子带地相减,并经过激活函数,得到每一帧每一个子带的听觉感知损失,最后对其求和得到听觉感知损失。
[0025]第二方面,提供一种神经网络训练装置,用于训练量化码本以及基于神经网络的编码器和解码器,包括:
[0026]编码器,用于提取输入音频信号的深层次特征;
[0027]量化器,用于量化所述编码器提取的所述深层次特征,得到深层次特征的索引;
[0028]解量化器,用于解量化编码深层次特征的索引,得到解量化的深层次特征;
[0029]量化损失计算模块,用于计算训练量化码本的量化损失;
[0030]解码器,用于将解量化的深层次特征解码,得到解码音频信号;
[0031]时频损失计算模块,用于计算所述输入音频信号和所述解码音频信号的时域重建损失和频域重建损失;
[0032]基于心理声学模型的信掩比计算模块,用于计算所述输入音频信号的信掩比;
[0033]听觉感知损失计算模块,用于计算所述解码音频信号的听觉感知损失;
[0034]训练模块,用于根据引入听觉感知特性的损失函数训练所述编码器、量化码本以及解码器,直至损失收敛,得到训练后的编码器、量化码本以及解码器。
[0035]第三方面,提供一种音频解码装置,包括所述的神经网络训练装置,其中,所述音频解码装置还被配置为:
[0036]接收解量化的深层次特征;
[0037]解码解量化的深层次特征,以及
[0038]输出解码音频信号;
[0039]其中,所述解量化的深层次特征为所述的神经网络训练装置使用训练后的量化码本解量化得到。
[0040]第四方面,提供一种音频编码装置,包括所述的神经网络训练装置,其中,所述音频编码装置还被配置为:
[0041]接收输入音频信号;
[0042]以压缩音频格式编码所述输入音频信号;以及
[0043]输出压缩音频格式的编码信号。
[0044]第五方面,提供一种电子设备,包括:
[0045]处理器;以及
[0046]存储器,用于存储所述处理器的可执行指令;
[0047]其中,所述处理器配置为经由执行所述可执行指令来执行所述的方法。
[0048]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法,用于训练量化码本以及基于神经网络的编码器和解码器,其特征在于,包括以下步骤:基于神经网络的编码器逐帧地提取输入音频信号的深层次特征;量化器量化所述编码器提取的所述深层次特征,得到深层次特征的索引;解量化器解量化所述的深层次特征的索引,得到解量化的深层次特征;量化损失计算模块基于深层次特征和解量化深层次特征计算用于训练量化码本的量化损失;基于神经网络的解码器将解量化的深层次特征解码,得到解码音频信号;时频损失计算模块基于所述输入音频信号和所述解码音频信号分别计算时域重建损失和频域重建损失,并以时域重建损失、频域重建损失以及量化损失之和作为损失函数;基于心理声学模型的信掩比计算模块计算所述输入音频信号的信掩比;听觉感知损失计算模块计算所述解码音频信号的听觉感知损失;将听觉感知损失加入到所述的损失函数中,得到引入听觉感知特性的损失函数;训练模块以引入听觉感知特性的损失函数训练编码器、量化码本以及解码器,直至损失收敛,得到训练后的编码器、量化码本以及解码器。2.如权利要求1所述的神经网络训练方法,其特征在于,所述听觉感知损失计算模块根据所述输入音频信号、所述解码音频信号和所述输入音频信号的信掩比,计算听觉感知损失。3.如权利要求2所述的神经网络训练方法,其特征在于,所述基于心理声学模型的信掩比计算模块计算所述输入音频信号的信掩比,步骤包括:所述的输入音频信号逐帧地输入所述基于心理声学模型的信掩比计算模块,信掩比计算模块将每一帧输入音频信号在频域划分为多个子带,并逐子带地计算信掩比,得到所述输入音频信号的信掩比。4.如权利要求3所述的神经网络训练方法,其特征在于,所述听觉感知损失计算模块计算所述解码音频信号的听觉感知损失,步骤包括:所述输入音频信号和所述解码音频信号逐帧地经时频变换后得到输入音频信号的能量谱和解码音频信号的能量谱;将所述输入音频信号的能量谱和所述解码音频信号的能量谱采用与所述信掩比计算中相同的子带划分方式进行子带划分,得到输入音频信号子带的能量和解码音频信号子带的能量;基于所述的输入音频信号子带的能量和所述解...

【专利技术属性】
技术研发人员:涂卫平刘陈建树肖立
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1