一种音频信号生成方法、装置、设备及其存储介质制造方法及图纸

技术编号:44565266 阅读:20 留言:0更新日期:2025-03-11 14:23
本申请实施例属于研发设计及音频处理技术领域,应用于音频合成的前置处理场景中,涉及一种音频信号生成方法、装置、设备及其存储介质,通过获取目标音频片段;进行音频特征提取;经相位幅度预测网络,获取音频相位谱和音频幅度谱;以音频相位谱和所述音频幅度谱作为音频信号生成参考谱,并采用对抗生成训练完成的音频信号生成网络对音频特征进行音频信号生成。本申请所述音频信号生成方法,引入了相位幅度预测网络,实现了在后续进行音频信号生成时,充分考虑相位信息,以提升音频信号生成的质量和清晰度。应用到金融科技领域智能语音客服进行虚拟语音合成场景中,充分结合参考语音的相位信息,提升合成语音的质量和清晰度。

【技术实现步骤摘要】

本申请涉及研发设计及音频处理,应用于音频合成的前置处理场景中,尤其涉及一种音频信号生成方法、装置、设备及其存储介质


技术介绍

1、近年来,现有的神经声码器(neural vocoder)技术已经在语音合成和声音转换等领域取得了显著进展。然而,当前的技术仍然存在相应的不足。

2、例如,许多声码器在生成音频信号时容易出现伪影。伪影指出现异常噪声点,这些伪影会严重影响音频的自然度和清晰度,导致合成的语音在听感上不够真实。尤其是在处理高频内容时,伪影现象更加明显,影响用户体验;同时,传统的声码器通常专注于幅度谱的生成,而忽略了相位信息。实际上,相位信息对音频信号的质量至关重要,缺乏对相位的准确建模可能导致生成音频在质量和清晰度上的下降,影响后续语音合成和用户体验。


技术实现思路

1、本申请实施例的目的在于提出一种音频信号生成方法、装置、设备及其存储介质,以解决现有生成音频信号时,伪影现象较高和忽略相位信息,导致生成的音频在质量和清晰度上的下降,影响后续语音合成和用户体验的问题。>

2、为了解决本文档来自技高网...

【技术保护点】

1.一种音频信号生成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的音频信号生成方法,其特征在于,在执行所述将所述目标音频片段输入到预训练完成的音频特征提取网络,进行音频特征提取,获取所述音频特征提取网络输出的音频特征的步骤之前,所述方法还包括:

3.根据权利要求2所述的音频信号生成方法,其特征在于,所述将所述训练样本输入到待训练的音频特征提取网络,对所述音频特征提取网络进行预训练,以获得预训练完成的音频特征提取网络的步骤,具体包括:

4.根据权利要求2所述的音频信号生成方法,其特征在于,在执行所述将所述音频特征输入到对抗生成训练完成的相位幅...

【技术特征摘要】

1.一种音频信号生成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的音频信号生成方法,其特征在于,在执行所述将所述目标音频片段输入到预训练完成的音频特征提取网络,进行音频特征提取,获取所述音频特征提取网络输出的音频特征的步骤之前,所述方法还包括:

3.根据权利要求2所述的音频信号生成方法,其特征在于,所述将所述训练样本输入到待训练的音频特征提取网络,对所述音频特征提取网络进行预训练,以获得预训练完成的音频特征提取网络的步骤,具体包括:

4.根据权利要求2所述的音频信号生成方法,其特征在于,在执行所述将所述音频特征输入到对抗生成训练完成的相位幅度预测网络,获取所述相位幅度预测网络输出的音频相位谱和音频幅度谱的步骤之前,所述方法还包括:

5.根据权利要求4所述的音频信号生成方法,其特征在于,所述采用对抗生成训练方式对所述音频生成器进行音频生成训练,以获得对抗生成训练完成的相位幅度预测网络和对抗生成训练完...

【专利技术属性】
技术研发人员:石岩陈闽川王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1