一种语音转换的方法、装置及电子设备制造方法及图纸

技术编号：30018569 阅读：19 留言：0更新日期：2021-09-11 06:32

本发明专利技术提供了一种语音转换的方法、装置及电子设备，其中，该方法包括：确定语音识别模型、目标用户的变声模型、声码器模型；基于语音识别模型提取源音频数据的特征向量，源音频数据的特征向量不存在声调标注；将源音频数据的特征向量转换为目标用户的声学特征；将目标用户的声学特征转换为目标用户的音频信号。通过本发明专利技术实施例提供的语音转换的方法、装置及电子设备，基于未标注声调的音频数据训练语音识别模型，使得语音识别模型所提取出的源音频数据的特征向量不存在声调信息，从而可以弱化训练阶段与转换阶段之间的声调差异，能够将源音频数据转换为与目标用户更接近的声学特征，从而提高了转换后的音频与所需音频之间的相似度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音转换的方法、装置及电子设备

[0001]本专利技术涉及语音处理
，具体而言，涉及一种语音转换的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]变声技术指的是把某人的原始声音转换为其他人的特定声音，其保留原始语音信号的语义内容，但能够改变说话人的声音特性，使某人的声音听起来像另外一个人的声音。变声技术可以是男声、女声之间的转换，不同年龄层次之间的转换等，也可以将说话人A的声音转换为说话人B的声音。
[0003]传统变声技术需要对平行语料实现对齐，然后再进行音色转换。这种处理方式需要收集内容相同的音频语料，用对齐后的频谱特征训练转换模型；该方式得到的变声效果不佳，且无法满足一些有实时性需求的应用场景。
[0004]此外，部分方案建立语音识别的隐层特征与语音合成特征之间的变声模型，但该方案中采用的隐层特征中包含源说话人的部分信息，导致转换后的声音仍然保留了源说话人的特性，转换后的声音与目标声音相似度降低。

技术实现思路

[0005]为解决现有存在的技术问题，本专利技术实施例提供一种语音转换的方法、装置、电子设备及计算机可读存储介质。
[0006]第一方面，本专利技术实施例提供了一种语音转换的方法，包括：
[0007]确定语音识别模型，确定目标用户的变声模型，并确定声码器模型；所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的；
[0008]获取源用户...

【技术保护点】

【技术特征摘要】
1.一种语音转换的方法，其特征在于，包括：确定语音识别模型，确定目标用户的变声模型，并确定声码器模型；所述语音识别模型是基于文本标注不存在声调标注的音频数据训练得到的，所述变声模型是基于所述语音识别模型所提取出的音频数据的特征向量训练得到的；获取源用户的源音频数据，基于所述语音识别模型提取所述源音频数据的特征向量，所述源音频数据的特征向量不存在声调标注；基于所述变声模型将所述源音频数据的特征向量转换为所述目标用户的声学特征；将所述目标用户的声学特征输入至所述声码器模型，将所述目标用户的声学特征转换为所述目标用户的音频信号。2.根据权利要求1所述的方法，其特征在于，所述确定语音识别模型包括：获取样本音频数据，并去除所述样本音频数据的文本标注中的声调标注；以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练，生成语音识别模型。3.根据权利要求2所述的方法，其特征在于，所述以所述样本音频数据作为输入、以相应的去除声调标注后的文本标注作为输出进行训练，包括：提取所述样本音频数据的语音特征；以所述样本音频数据的语音特征作为输入、以相应的去除声调标注后的文本标注作为输出进行训练。4.根据权利要求1所述的方法，其特征在于，所述确定目标用户的变声模型包括：获取样本用户的第一音频数据，并提取所述第一音频数据的声学特征；获取目标用户的第二音频数据，并提取所述第二音频数据的声学特征；根据所述语音识别模型提取所述第一音频数据的特征向量，根据所述语音识别模型提取所述第二音频数据的特征向量，所述第一音频数据的特征向量和所述第二音频数据的特征向量均不存在声调标注；以所述第一音频数据的特征向量作为输入、所述第一音频数据的声学特征作为输出进行训练，生成变声基线模型；以所述第二音频数据的特征向量作为输入、所述第二音频数据的声学特征作为输出对所述变声基线模型进行微调，生成所述目标用户的变声模型。5.根据权利要求4所述的方法，其特征在于，所述变声模型包括编码器、自注意力层、双层长短期记忆层和解码器，所述编码器和所述解码器均包含多个深度神经网络层；所述编码...

【专利技术属性】
技术研发人员：王旭，衷奕，饶丰，魏萌，
申请(专利权)人：北京一起教育科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人