【技术实现步骤摘要】
本专利技术涉及人工智能和金融科技领域,尤其涉及一种基于频带分割的声码器音频生成方法、装置、设备及存储介质。
技术介绍
1、在金融领域的音频处理系统中,语音识别、语音合成等技术正逐渐被广泛应用于智能客服、语音交互、风险管理等多种业务场景中。为了提升语音交互的准确性和响应速度,音频信号处理的质量至关重要。然而,当前金融场景中的语音合成技术仍然面临一些挑战,尤其是在音频还原过程中,如何精确重建音频信号的相位信息一直是行业内的难点。
2、在音频信号处理中,声码器(vocoder)作为一种用于合成或重构语音信号的系统,广泛应用于金融领域的智能语音系统。然而,传统的griffin-lim算法是最常见的相位恢复方法之一,但该方法主要针对线性幅度谱,在梅尔频谱(mel-spectrogram)下效果不佳。这对于金融场景中的智能语音合成,例如语音助手和自动客户服务系统,带来了显著的局限性。由于griffin-lim算法在相位还原上的限制,语音生成效果差,生成的音频质量较低,难以满足金融行业对语音合成高质量、高真实性的需求。
3、近
...【技术保护点】
1.一种基于频带分割的声码器音频生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,通过包含一维卷积层且不带非线性激活的前置网络处理所述Log梅尔频谱,包括:
3.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理,包括:
4.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的信号在通道维度上按照预定比例分割为多个张量,包括:<
...【技术特征摘要】
1.一种基于频带分割的声码器音频生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,通过包含一维卷积层且不带非线性激活的前置网络处理所述log梅尔频谱,包括:
3.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将处理后的信号依次通过多个上采样处理模块,每个上采样处理模块通过转置卷积进行上采样,并利用多感受野模块进行信号处理,包括:
4.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的信号在通道维度上按照预定比例分割为多个张量,包括:
5.如权利要求1所述的基于频带分割的声码器音频生成方法,其特征在于,分别通过参数不共享的多感受野模块独立处理所述分割后的张量,并通过卷积操作统一通道数,包括:
6.如权利要求1中所述的基于频带分割的声码器音频生成方法,其特征在于,将上采样后的张量合并为一个信号,并通过另...
【专利技术属性】
技术研发人员:张旭龙,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。