【技术实现步骤摘要】
一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
本专利技术属于音频编解码领域,涉及一种频带扩展方法,尤其涉及一种面向频带扩展的生成式对抗网络训练方法及音频编码方法、解码方法。
技术介绍
音频编解码技术又称之为音频压缩技术,对音频文件进行压缩编码,降低文件码率,使结果便于记录、存储、传输,具有广泛的用途。当目标码率较低时,传统单声道音频编解码技术会舍弃高频信息以保证低频的压缩效果,但由于缺失高频信息,此时编解码结果声音会引起空洞、发闷等不舒适的感觉。为提高编解码质量,通常会对单通道核心编码器的解码结果进行频带扩展。这类方法统称为频带扩展技术。频带扩展技术是指解码端通过少量额外信息或者不用额外信息,在编码端只给出低频内容的条件下,恢复出相应高频部分,使解码结果具有温暖,明亮,丰富等舒适的主观听感。20世纪70年代早期,KnoppelK在音频编辑软件AphexAuralExciter中提供了一种由低频生成高频的方法。该方法一般被认为是音频频带扩展技术的第一个方法。1979年,MakhoulJ和BeroutiM提出用谱折叠谱平移的方式扩展语音信号的带宽。20 ...
【技术保护点】
一种面向频带扩展的生成式对抗网络训练方法,其步骤包括:对音频信号进行瞬态信号检测;a)如果检测结果为稳态信号,则对其进行MDCT变换,将得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络;b)如果 ...
【技术特征摘要】
1.一种面向频带扩展的生成式对抗网络训练方法,其步骤包括:对音频信号进行瞬态信号检测;a)如果检测结果为稳态信号,则对其进行MDCT变换,将得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络;b)如果检测结果为瞬态信号,则对其进行MDCT变换,将得到的频谱作为真数据;对得到的频谱进行分带,并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络。2.如权利要求1所述的生成式对抗网络训练方法,其特征在于,所述利用反量化的高频能量包络修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱的方法为:利用反量化的高频能量包络作为校正模块使用的先验信息,修正生成网络GAN生成的高频频谱,得到最终生成的高频频谱。3.如权利要求1所述的生成式对抗网络训练方法,其特征在于,所述计算高低频频谱能量包络比为其中,低频频谱能量包络高频频谱能量包络为MDCTcoef(k)表示MDCT谱系数,cutf_low表示低频截止频率,slen表示选取的融合带的带宽...
【专利技术属性】
技术研发人员:曲天书,吴玺宏,黄庆博,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。