神经网络训练方法、装置、电子设备及介质制造方法及图纸

技术编号：34255860 阅读：18 留言：0更新日期：2022-07-24 12:40

本发明专利技术公开了神经网络训练方法、装置、电子设备及介质，涉及音频信号编解码技术领域。训练方法包括以下步骤：基于神经网络的编码器将音频信号编码为深层次特征；量化器将深层次特征量化；解量化器将深层次特征量化索引解量化；基于神经网络的解码器将解量化的深层次特征解码，得到解码音频信号；基于心理声学模型计算输入音频信号的信掩比；听觉感知损失计算模块计算解码音频信号的听觉感知损失；训练模块基于引入听觉感知特性的损失函数训练编码器、量化码本以及解码器，直至损失收敛。根据本发明专利技术训练方法得到的编解码器，能够使解码音频信号的每一个频率成分的重建噪声尽可能地控制在掩蔽阈值内，从而达到提升解码音频信号感知质量的效果。知质量的效果。知质量的效果。

Neural network training methods, devices, electronic equipment and media

全部详细技术资料下载

【技术实现步骤摘要】
神经网络训练方法、装置、电子设备及介质

[0001]本专利技术涉及音频信号编解码
，具体是涉及一种神经网络训练方法、装置、电子设备及介质。

技术介绍

[0002]人类听觉研究显示，人耳具有听觉掩蔽效应，即当两个频率相同或相近的声音同时发生时，较大的声音(掩蔽者)会降低人耳对较小声音(被掩蔽者)的感知能力；当两者强度相差较大时，被掩蔽者完全不能被人耳听见。掩蔽者能掩蔽住被掩蔽者的最大强度，称为掩蔽阈值。掩蔽效应除了跟掩蔽者的强度密切相关，还与音频信号的频率具有强相关性。
[0003]传统的感知音频编码方法利用人耳的掩蔽效应，将输入音频信号划分为各个子带，对每个子带信号编码时，将编码导致的重建误差的强度控制在该子带信号的掩蔽阈值内，实现压缩音频数据的同时，保证解码音频信号感知无失真。当传输码率较低时，基于人耳对低频更加敏感的特性，编码器会对低频成分分配更多的比特，从而导致音频高频成分损失较大甚至缺失。以MP3为例，当码率低于128kbps，15kHz以上的频率成分将被丢弃，解码音频质量降低。近年来，基于神经网络自编码器在音频编解码领域发展迅速，当码率为112kbps时，自编码器能够保留15kHz～22kHz的高频成分的同时保证较好的解码音频质量，这为更低码率下生成高质量的解码音频提供了可能。
[0004]现有技术中存在如下技术问题：当基于神经网路的自编码器的码率低至72kbps，解码后的音频信号虽能保留15kHz～22kHz的高频成分，但存在明显可闻噪声。其原因是自编码器仅使用频谱均方误差作为频域损...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法，用于训练量化码本以及基于神经网络的编码器和解码器，其特征在于，包括以下步骤：基于神经网络的编码器逐帧地提取输入音频信号的深层次特征；量化器量化所述编码器提取的所述深层次特征，得到深层次特征的索引；解量化器解量化所述的深层次特征的索引，得到解量化的深层次特征；量化损失计算模块基于深层次特征和解量化深层次特征计算用于训练量化码本的量化损失；基于神经网络的解码器将解量化的深层次特征解码，得到解码音频信号；时频损失计算模块基于所述输入音频信号和所述解码音频信号分别计算时域重建损失和频域重建损失，并以时域重建损失、频域重建损失以及量化损失之和作为损失函数；基于心理声学模型的信掩比计算模块计算所述输入音频信号的信掩比；听觉感知损失计算模块计算所述解码音频信号的听觉感知损失；将听觉感知损失加入到所述的损失函数中，得到引入听觉感知特性的损失函数；训练模块以引入听觉感知特性的损失函数训练编码器、量化码本以及解码器，直至损失收敛，得到训练后的编码器、量化码本以及解码器。2.如权利要求1所述的神经网络训练方法，其特征在于，所述听觉感知损失计算模块根据所述输入音频信号、所述解码音频信号和所述输入音频信号的信掩比，计算听觉感知损失。3.如权利要求2所述的神经网络训练方法，其特征在于，所述基于心理声学模型的信掩比计算模块计算所述输入音频信号的信掩比，步骤包括：所述的输入音频信号逐帧地输入所述基于心理声学模型的信掩比计算模块，信掩比计算模块将每一帧输入音频信号在频域划分为多个子带，并逐子带地计算信掩比，得到所述输入音频信号的信掩比。4.如权利要求3所述的神经网络训练方法，其特征在于，所述听觉感知损失计算模块计算所述解码音频信号的听觉感知损失，步骤包括：所述输入音频信号和所述解码音频信号逐帧地经时频变换后得到输入音频信号的能量谱和解码音频信号的能量谱；将所述输入音频信号的能量谱和所述解码音频信号的能量谱采用与所述信掩比计算中相同的子带划分方式进行子带划分，得到输入音频信号子带的能量和解码音频信号子带的能量；基于所述的输入音频信号子带的能量和所述解...

【专利技术属性】
技术研发人员：涂卫平，刘陈建树，肖立，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人