语音处理模型的训练方法、语音处理方法、装置及设备制造方法及图纸

技术编号:45837300 阅读:20 留言:0更新日期:2025-07-15 22:43
本公开提供了一种语音处理模型的训练方法、语音处理方法、装置及设备,属于计算机技术领域。该方法通过在模型训练过程中通过语音处理模型对样本语音信号和参考语音文本进行处理,来得到语义嵌入表示、副语言嵌入表示以及音素嵌入表示,实现了将声学编码、语义编码、副语言编码完全解耦,消除了语义编码过程中的副语言残留,提高了模型的训练效率,再通过对比损失以及声学重构损失来进行模型训练,增强了语义编码的完整性与重构保真度,提高了训练得到的语音处理模型的语音处理效果。

【技术实现步骤摘要】

本公开涉及计算机,特别涉及一种语音处理模型的训练方法、语音处理方法、装置及设备


技术介绍

1、语音编解码技术是一种用于对语音信号进行处理和转换的技术,旨在实现语音信号在不同设备之间的高效传输、存储和还原。语音编解码技术作为连接语音信号与文本语言模型的桥梁,广泛应用于语音合成(tts)、语音识别(asr)及智能对话系统中。传统语音编解码方法通常采用多码本量化的方式,来实现高保真语音压缩。然而,上述方案中解码器直接融合了语义与声学编码,导致语义编码的完整性不足,从而重构语音保真度较低,语音处理效果不佳。


技术实现思路

1、本公开提供一种语音处理模型的训练方法、语音处理方法、装置及设备。该方案通过对比损失以及声学重构损失来进行模型训练,增强了语义编码的完整性与重构保真度,提高了训练得到的语音处理模型的语音处理效果。

2、根据本公开实施例的一方面,提供了一种语音处理模型的训练方法,所述方法包括:

3、通过语音处理模型对样本语音信号进行处理,得到所述样本语音信号的语义嵌入表示和副语言嵌入表示,本文档来自技高网...

【技术保护点】

1.一种语音处理模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音处理模型的训练方法,其特征在于,通过所述语音处理模型对所述样本语音信号进行处理,得到所述样本语音信号的语义嵌入表示的步骤包括:

3.根据权利要求2所述的语音处理模型的训练方法,其特征在于,所述基于所述语义模型中的变分自编码器和有限标量量化层对所述语义投影向量进行处理,得到所述样本语音信号的语义嵌入表示,包括:

4.根据权利要求1所述的语音处理模型的训练方法,其特征在于,通过所述语音处理模型对所述样本语音信号进行处理,得到所述样本语音信号的副语言嵌入表示的步骤包括:<...

【技术特征摘要】

1.一种语音处理模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音处理模型的训练方法,其特征在于,通过所述语音处理模型对所述样本语音信号进行处理,得到所述样本语音信号的语义嵌入表示的步骤包括:

3.根据权利要求2所述的语音处理模型的训练方法,其特征在于,所述基于所述语义模型中的变分自编码器和有限标量量化层对所述语义投影向量进行处理,得到所述样本语音信号的语义嵌入表示,包括:

4.根据权利要求1所述的语音处理模型的训练方法,其特征在于,通过所述语音处理模型对所述样本语音信号进行处理,得到所述样本语音信号的副语言嵌入表示的步骤包括:

5.根据权利要求4所述的语音处理模型的训练方法,其特征在于,所述基于所述副语言模型中的变分自编码器对所述多个副语言编码表示进行处理,得到所述样本语音信号的副语言嵌入表示,包括:

6.根据权利要求1所述的语音处理模型的训练方法,其特征在于,所述通过所述语音处理模型对所述样本语音信号的参考语音文本进行处理,得到所述参考语音文本的音素嵌入表示,包括:

7.根据权利要求1-6任一项所述的语音处理模型的训练方法,其特征在于,所述方法还包括:

【专利技术属性】
技术研发人员:强春雨张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1