基于频带分割的声码器音频生成方法、装置、设备及介质制造方法及图纸

技术编号:43838314 阅读:21 留言:0更新日期:2024-12-31 18:35
本发明专利技术涉及人工智能技术领域和金融科技领域,公开了一种基于频带分割的声码器音频生成方法,通过将输入的音频信号转换为Log梅尔频谱,通过一维卷积网络对频谱信号进行初步处理。信号经过转置卷积进行上采样处理后,利用多感受野模块对不同频带的特征进行提取与处理。在频带分割过程中,信号在通道维度上被分割为多个张量,每个张量对应特定的频带范围,分别进行独立处理。使用PQMF合成滤波器组对已统一通道数的信号再次进行上采样。在信号合并后,通过另一多感受野模块处理最终生成的音频信号。本发明专利技术通过频带分割和独立的多感受野模块处理不同频带的张量,减少了转置卷积在上采样过程中引入的频率混叠现象,从而提高了音频生成的质量和自然性。

【技术实现步骤摘要】

本专利技术涉及人工智能和金融科技领域,尤其涉及一种基于频带分割的声码器音频生成方法、装置、设备及存储介质。


技术介绍

1、在金融领域的音频处理系统中,语音识别、语音合成等技术正逐渐被广泛应用于智能客服、语音交互、风险管理等多种业务场景中。为了提升语音交互的准确性和响应速度,音频信号处理的质量至关重要。然而,当前金融场景中的语音合成技术仍然面临一些挑战,尤其是在音频还原过程中,如何精确重建音频信号的相位信息一直是行业内的难点。

2、在音频信号处理中,声码器(vocoder)作为一种用于合成或重构语音信号的系统,广泛应用于金融领域的智能语音系统。然而,传统的griffin-lim算法是最常见的相位恢复方法之一,但该方法主要针对线性幅度谱,在梅尔频谱(mel-spectrogram)下效果不佳。这对于金融场景中的智能语音合成,例如语音助手和自动客户服务系统,带来了显著的局限性。由于griffin-lim算法在相位还原上的限制,语音生成效果差,生成的音频质量较低,难以满足金融行业对语音合成高质量、高真实性的需求。

3、近年来,随着深度学习技本文档来自技高网...

【技术保护点】

1.一种基于频带分割的声码器音频生成方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,通过包含一维卷积层且不带非线性激活的前置网络处理所述Log梅尔频谱,包括:

3.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理,包括:

4.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的信号在通道维度上按照预定比例分割为多个张量,包括:</p>

5.如权...

【技术特征摘要】

1.一种基于频带分割的声码器音频生成方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,通过包含一维卷积层且不带非线性激活的前置网络处理所述log梅尔频谱,包括:

3.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理,包括:

4.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的信号在通道维度上按照预定比例分割为多个张量,包括:

5.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,分别通过参数不共享的多感受野模块独立处理所述分割后的张量,并通过卷积操作统一通道数,包括:

6.如权利要求1中所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的张量合并为一个信号,并通过另...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1