System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能和金融科技领域,尤其涉及一种基于频带分割的声码器音频生成方法、装置、设备及存储介质。
技术介绍
1、在金融领域的音频处理系统中,语音识别、语音合成等技术正逐渐被广泛应用于智能客服、语音交互、风险管理等多种业务场景中。为了提升语音交互的准确性和响应速度,音频信号处理的质量至关重要。然而,当前金融场景中的语音合成技术仍然面临一些挑战,尤其是在音频还原过程中,如何精确重建音频信号的相位信息一直是行业内的难点。
2、在音频信号处理中,声码器(vocoder)作为一种用于合成或重构语音信号的系统,广泛应用于金融领域的智能语音系统。然而,传统的griffin-lim算法是最常见的相位恢复方法之一,但该方法主要针对线性幅度谱,在梅尔频谱(mel-spectrogram)下效果不佳。这对于金融场景中的智能语音合成,例如语音助手和自动客户服务系统,带来了显著的局限性。由于griffin-lim算法在相位还原上的限制,语音生成效果差,生成的音频质量较低,难以满足金融行业对语音合成高质量、高真实性的需求。
3、近年来,随着深度学习技术的发展,基于生成对抗网络(gan)的声码器在语音合成中表现出了显著优势。gan通过生成器与鉴别器的对抗训练,在学习过程中逐渐生成高质量的音频。然而,在现有的金融智能语音系统中,gan声码器的生成器结构通常采用转置卷积进行上采样,但由于其在频率维度上引入混叠频率信息,导致了最终生成的音频中常出现频率失真等瑕疵。这种频率混叠问题严重影响了语音合成的自然度和可理解性,降低了金融语音
4、此外,随着金融业务复杂性的提升,语音系统需要处理大量的用户数据和复杂的语言模型,这对语音合成的实时性和效率提出了更高要求。然而,现有的音频生成技术在高效处理大规模音频数据时,仍然存在瓶颈。因此,如何在金融场景中有效解决音频生成中的相位恢复问题,减少频率混叠现象,提升语音合成的质量与效率,仍然是该领域待解决的技术难题。
技术实现思路
1、本专利技术的主要目的在于提供一种基于频带分割的声码器音频生成方法、装置、设备及存储介质,旨在解决现有技术在通过转置卷积上采样时,生成音频信号中频率维度上会产生混叠频率信息,导致音频质量和真实性下降的技术问题。
2、为实现上述目的,本专利技术提供一种基于频带分割的声码器音频生成方法,包括:
3、获取原始音频信号,并将所述原始音频信号转换为log梅尔频谱,将所述log梅尔频谱的频率维度视为多个频率通道的一维信号;
4、通过包含一维卷积层且不带非线性激活的前置网络处理所述log梅尔频谱;
5、将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理;
6、在转置卷积和多感受野模块处理后,将上采样后的信号在通道维度上按照预定比例分割为多个张量,每个张量对应不同的频带;
7、分别通过参数不共享的多感受野模块独立处理所述分割后的张量,并通过卷积操作统一通道数;
8、利用pqmf合成滤波器组对统一通道数的张量进行上采样;
9、将上采样后的张量合并为一个信号,并通过另一个多感受野模块处理;
10、通过包含一维卷积层和激活函数的后置网络处理合并后的信号,调整通道维度;
11、将处理后的信号通过激活函数,得到生成的目标音频信号。
12、进一步地,为实现上述目的,本专利技术提供一种基于频带分割的声码器音频生成装置,包括:
13、输入模块,用于获取原始音频信号,并将所述原始音频信号转换为log梅尔频谱,将所述log梅尔频谱的频率维度视为多个频率通道的一维信号;
14、前置网络模块,用于通过包含一维卷积层且不带非线性激活的前置网络处理所述log梅尔频谱;
15、上采样模块,用于将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理;
16、频带分割模块,用于在转置卷积和多感受野模块处理后,将上采样后的信号在通道维度上按照预定比例分割为多个张量,每个张量对应不同的频带;
17、多感受野独立处理模块,用于分别通过参数不共享的多感受野模块独立处理所述分割后的张量,并通过卷积操作统一通道数;
18、pqmf上采样模块,用于利用pqmf合成滤波器组对统一通道数的张量进行上采样;
19、信号合并与处理模块,用于将上采样后的张量合并为一个信号,并通过另一个多感受野模块处理;
20、后置网络模块,用于通过包含一维卷积层和激活函数的后置网络处理合并后的信号,调整通道维度;
21、输出模块,用于将处理后的信号通过激活函数,得到生成的目标音频信号。
22、进一步地,为实现上述目的,本专利技术还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于频带分割的声码器音频生成程序,所述基于频带分割的声码器音频生成程序被所述处理器执行时实现如上述所述的基于频带分割的声码器音频生成方法的步骤。
23、进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述存储介质上存储有基于频带分割的声码器音频生成程序,所述基于频带分割的声码器音频生成程序被处理器执行时实现如上所述的基于频带分割的声码器音频生成方法的步骤。
24、有益效果:本专利技术涉及人工智能
和金融科技领域,公开了一种基于频带分割的声码器音频生成方法,通过将输入的音频信号转换为log梅尔频谱,通过一维卷积网络对频谱信号进行初步处理。信号经过转置卷积进行上采样处理后,再利用多感受野模块对不同频带的特征进行提取与处理。在频带分割过程中,信号在通道维度上被分割为多个张量,每个张量对应特定的频带范围,分别进行独立处理。使用pqmf合成滤波器组对已统一通道数的信号再次进行上采样,确保高频和低频部分的信号得到有效还原。在信号合并后,通过另一多感受野模块处理最终生成的音频信号。本专利技术通过频带分割和独立的多感受野模块处理不同频带的张量,减少了转置卷积在上采样过程中引入的频率混叠现象,从而提高了音频生成的质量和自然性,确保了语音合成的清晰度和高效性,使得生成音频在金融以及语音交互等场景中的应用更为精准和有效。
【技术保护点】
1.一种基于频带分割的声码器音频生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,通过包含一维卷积层且不带非线性激活的前置网络处理所述Log梅尔频谱,包括:
3.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理,包括:
4.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的信号在通道维度上按照预定比例分割为多个张量,包括:
5.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,分别通过参数不共享的多感受野模块独立处理所述分割后的张量,并通过卷积操作统一通道数,包括:
6.如权利要求1中所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的张量合并为一个信号,并通过另一个多感受野模块处理,包括:
7.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,获取原始音频信号
8.一种基于频带分割的声码器音频生成装置,其特征在于,所述基于频带分割的声码器音频生成装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可以在所述处理器上运行的基于频带分割的声码器音频生成程序,所述基于频带分割的声码器音频生成程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于频带分割的声码器音频生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有基于频带分割的声码器音频生成程序,所述基于频带分割的声码器音频生成程序被处理器执行时实现如权利要求1-7中任一项所述的基于频带分割的声码器音频生成方法的步骤。
...【技术特征摘要】
1.一种基于频带分割的声码器音频生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,通过包含一维卷积层且不带非线性激活的前置网络处理所述log梅尔频谱,包括:
3.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理,包括:
4.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的信号在通道维度上按照预定比例分割为多个张量,包括:
5.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,分别通过参数不共享的多感受野模块独立处理所述分割后的张量,并通过卷积操作统一通道数,包括:
6.如权利要求1中所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的张量合并为一个信号,并通过另...
【专利技术属性】
技术研发人员:张旭龙,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。