一种语音转换方法、装置、存储介质及电子设备制造方法及图纸

技术编号：32209993 阅读：15 留言：0更新日期：2022-02-09 17:15

本公开涉及自然语音处理、语音和深度学习等人工智能技术领域，提供了一种语音转换方法、装置、存储介质及电子设备，包括：接收待转换的源音频；对源音频进行内容信息编码，得到第一特征；获取目标发音人的指定音频；对指定音频进行语音识别，得到第二特征；将第一特征和第二特征输入至语音转换模型，得到目标音频。这里采用端到端的语音转换训练，有效避免了单独训练声码器的繁琐过程，不再需要获取目标发音人的大量音频进行单独的声码器模型训练。由此，无需平行数据，即可实现任意源音频到目标发音人的音色转换。并且，将声学模型和声码器进行协同建模，语音转换的整体模型规模大幅减小。显著节存储资源和计算资源，有效提升语音转换效率。语音转换效率。语音转换效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音转换方法、装置、存储介质及电子设备

[0001]本公开涉及自然语音处理、语音和深度学习等人工智能
，尤其涉及语音转换方法、装置、存储介质及电子设备。

技术介绍

[0002]语音转换是指将源音频转化成具有目标发音人的音色特点的语音。在变声、配音、语音模仿等多个领域有着重要的用途，是当前语音技术的前沿且重要的技术分支。但是，目前的语音转换过程，需要首先获取大量的目标发音人的语料，进行语音编码模型的训练和声码器的训练，模型训练过程繁琐码器对声学特征进行语音转换，才能得到最终的目标语音。

技术实现思路

[0003]本公开提供了一种用于语音转换方法、装置、设备以及存储介质。
[0004]根据本公开的一方面，提供了一种语音转换方法，包括：接收待转换的源音频；对所述源音频进行内容信息编码，得到第一特征；获取目标发音人的指定音频；对所述指定音频进行语音识别，得到第二特征；将所述第一特征和所述第二特征输入至语音转换模型，得到目标音频。
[0005]根据本公开一实施方式，所述将所述第一特征和所述第二特征输入至语音转换模型，得到目标音频，包括：将所述第一特征和所述第二特征输入至语音转换模型，基于源音频的帧，在所述第一特征中添加所述第二特征，得到联合编码；对所述联合编码进行特征融合，得到融合特征；将所述融合特征进行信号转换，得到所述目标音频。
[0006]根据本公开一实施方式，所述方法还包括：对所述源音频和所述指定进行基频提取，得到基频信息；相应的所述将所述第一特征和所述第二特征输入至语...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法，包括：接收待转换的源音频；对所述源音频进行内容信息编码，得到第一特征；获取目标发音人的指定音频；对所述指定音频进行语音识别，得到第二特征；将所述第一特征和所述第二特征输入至语音转换模型，得到目标音频。2.根据权利要求1所述的方法，其中，所述将所述第一特征和所述第二特征输入至语音转换模型，得到目标音频，包括：将所述第一特征和所述第二特征输入至语音转换模型，基于源音频的帧，在所述第一特征中添加所述第二特征，得到联合编码；对所述联合编码进行特征融合，得到融合特征；将所述融合特征进行信号转换，得到所述目标音频。3.根据权利要求1所述的方法，所述方法还包括：对所述源音频和所述指定进行基频提取，得到基频信息；相应的所述将所述第一特征和所述第二特征输入至语音转换模型，得到目标音频，包括：将所述基频信息、所述第一特征和所述第二特征输入至语音转换模型，得到目标音频。4.根据权利要求1所述的方法，所述方法还包括：对所述目标音频进行内容信息编码，得到内容特征；根据所述内容特征与所述第一特征，对所述目标音频行第一损失判别。5.根据权利要求1所述的方法，所述方法还包括：获取目标发音人的样本音频；基于所述样本音频和所述目标音频，进行判...

【专利技术属性】
技术研发人员：聂志朋，王俊超，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人