个性化语音转换训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：28492523 阅读：29 留言：0更新日期：2021-05-19 22:18

本发明专利技术提供一种个性化语音转换训练方法，包括获取的N个说话人的语音平行语料对初始语音转换模型进行训练，得到语音转换平均模型；获取特定说话人的语音平行语料并分别与所述N个说话人的语音平行语料进行组合，得到N组训练语音数据；基于N组训练语音数据对所述语音转换平均模型进行训练，得到特定语音转换平均模型；获取目标说话人的第一样本语音数据，获取特定说话人对应的第二样本语音数据，并对特定语音转换平均模型进行训练，得到特定语音转换到目标语音的目标语音转换模型。此外，本申请还涉及一种个性化语音转换训练装置、计算机设备及存储介质。设备及存储介质。设备及存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
个性化语音转换训练方法、装置、计算机设备及存储介质

[0001]本专利技术涉及计算机
，尤其是涉及一种个性化语音转换训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点收到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。为了使合成的语音更加清晰、自然、富有表现力，现有的语音合成系统一般都会选择一个目标说话人，录制这个目标说话人的大量的发音数据，并将这些发音数据作为语音合成的基础数据。这种方式的优点在于，合成语音的音质、音色会与发音人本身发出的语音更为相似，其清晰度和自然度会大大提高，但缺点在于，需要获取目标说话人的大量样本语音数据，这些样本语音数据的采集工作会耗费大量的物力、财力，从而使得更进一步的为每个个人用户都制作独特的个性化语音合成模型变得非常困难。

技术实现思路

[0003]基于此，有必要针对上述问题，提供一种只需要采集目标说话人少量样本语音数据的个性化语音转换训练方法...

【技术保护点】

【技术特征摘要】
1.一种个性化语音转换训练方法，其特征在于，所述方法包括：获取语音语料库中的语音语料数据，所述语音语料数据包括：N个说话人的语音平行语料，所述语音平行语料是指多个人的语音语料对应相同的语音文本内容；基于所述N个人说话人的语音平行语料对初始语音转换模型进行训练，得到语音转换平均模型；获取特定说话人的语音平行语料，将所述特定说话人的语音平行语料分别与所述N个说话人的语音平行语料进行组合，得到N组训练语音数据；基于所述N组训练语音数据对所述语音转换平均模型进行训练，得到特定语音转换平均模型；获取目标说话人的第一样本语音数据，获取所述特定说话人对应的第二样本语音数据，所述第一样本语音数据和所述第二样本语音数据对应的文本内容相同，所述第一样本语音数据的规模远小于所述语音平行语料的规模；基于所述第一样本语音数据和所述第二样本语音数据对所述特定语音转换平均模型进行训练，得到特定语音转换到目标语音的目标语音转换模型。2.根据权利要求1所述的方法，其特征在于，所述N组训练语音数据中将特定说话人的语音平行语料作为源语音，所述N组训练语音数据中将N个说话人的语音平行语料作为期望语音；所述方法还包括：利用语音特征分析器对所述源语音与期望语音分别进行声学特征提取，得到源语音声学特征与期望语音声学特征；控制在时间轴上将所述源语音声学特征与所述期望语音声学特征对齐；利用所述对齐后的源语音声学特征与所述期望语音声学特征对预设神经网络模型进行训练，得到初始语音转换模型。3.根据权利要求1所述的方法，其特征在于，所述基于所述N个人说话人的语音平行语料对初始语音转换模型进行训练，得到语音转换平均模型，包括：将所述N个人的语音平行语料进行两两组合，得到组训练语音数据；基于所述组训练语音数据对初始语音转换模型进行训练，得到语音转换平均模型。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取待转换的语音文本，通过语音合成模型将所述待转换的语音文本转换为所述特定说话人的语音数据；将所述特定说话人的语音数据作为所述目标语音转换模型的输入，获取所述目标语音转换模型输出的目标语音数据。5.根据权利要求4所述的方法，其特征在于，所述通过语音合成模型将所述待转换的语音文本转换为所述特定说话人的语音数据之前，还包括：获取所述特定说话人对应的目标语音语料数据；将所述目标语音语料数据进行文本分析与语音分析，分别得到语音语料文本特征与语音语料声音特征；利用所述语音语料...

【专利技术属性】
技术研发人员：黄东延，王若童，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人