语音处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:46052330 阅读:12 留言:0更新日期:2025-08-11 15:40
本发明专利技术公开了一种语音处理方法、装置、计算机设备及存储介质,涉及语音处理技术领域,方法包括:从目标语音中选取第一预设帧的片段作为第一梅尔频谱图片段,并将所述第一梅尔频谱图片段输入至参考编码器,以获得所述参考编码器输出的目标全局特征;从所述目标语音中选取第二预设帧的片段作为第二梅尔频谱图片段,并将所述第二梅尔频谱图片段和所述目标全局特征输入至编码模块,以获得所述编码模块输出的所述第二梅尔频谱图片段对应的目标内容表示;将所述目标全局特征和所述目标内容表示输入至解码模块,以获得所述解码模块输出的重建梅尔频谱图片段。本申请可应用于金融科技、医疗健康养老等智能语音客服系统中,提高了语音处理效率与鲁棒性。

【技术实现步骤摘要】

本专利技术涉及语音处理,尤其涉及一种语音处理方法、装置、计算机设备及存储介质


技术介绍

1、近年来,语音处理技术取得了显著进展,在金融业务智能客服、医疗健康养老等关键领域得到广泛应用。随着大型语言模型(llm)被引入语音处理技术,文本到语音合成(tts)技术更是实现了质的飞跃。而现有的大型语言模型-文本到语音合成(llm-tts)方法通常将语音处理问题视为一个下一个词预测任务,依赖于编码模块和解码模块进行语音标记化和波形重建。

2、在此过程中,多码本语音编解码在实际操作时,通常需要分成两个语音,一个是待处理语音,另一个是参考语音,并分别对它们进行编解码。这种方式增加了运算量,导致处理效率低下,并且面对不同场景和数据时,稳定性欠佳,鲁棒性不足。因此,如何提高语音处理效率与鲁棒性,成为亟待解决的技术问题。


技术实现思路

1、本专利技术实施例提供一种语音处理方法、装置、计算机设备及存储介质,以解决现有语音处理效率与鲁棒性较低的技术问题。

2、第一方面,提供了一种语音处理方法,包括:

本文档来自技高网...

【技术保护点】

1.一种语音处理方法,其特征在于,包括:

2.如权利要求1所述的语音处理方法,其特征在于,所述参考编码器包括多层二维卷积层和门控循环单元层;

3.如权利要求1所述的语音处理方法,其特征在于,所述编码模块包括卷积神经网络编码器、第一重采样模块和第一双向长短期记忆网络模块,其中,所述卷积神经网络编码器与所述第一重采样模块相连,所述第一重采样模块与所述第一双向长短期记忆网络模块相连;

4.如权利要求1所述的语音处理方法,其特征在于,所述解码模块包括第二双向长短期记忆网络模块、第二重采样模块和卷积神经网络解码器,其中,所述第二双向长短期记忆网络模块与所述第二重...

【技术特征摘要】

1.一种语音处理方法,其特征在于,包括:

2.如权利要求1所述的语音处理方法,其特征在于,所述参考编码器包括多层二维卷积层和门控循环单元层;

3.如权利要求1所述的语音处理方法,其特征在于,所述编码模块包括卷积神经网络编码器、第一重采样模块和第一双向长短期记忆网络模块,其中,所述卷积神经网络编码器与所述第一重采样模块相连,所述第一重采样模块与所述第一双向长短期记忆网络模块相连;

4.如权利要求1所述的语音处理方法,其特征在于,所述解码模块包括第二双向长短期记忆网络模块、第二重采样模块和卷积神经网络解码器,其中,所述第二双向长短期记忆网络模块与所述第二重采样模块相连,所述第二重采样模块与所述卷积神经网络解码器相连;

5.如权利要求4所述的语音处理方法,其特征在于,所述将所述目标内容表示输入至所述第二双向长短期记忆网络模块,以获得所述第二双向长短期记忆...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1