虚拟语音的生成方法、装置、存储介质及电子装置制造方法及图纸

技术编号：37295672 阅读：30 留言：0更新日期：2023-04-21 22:42

本发明专利技术公开了一种虚拟语音的生成方法、装置、存储介质及电子装置。其中，该虚拟语音的生成方法包括：通过获取多个不同的语音文本样本及语音属性信息，多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象；将每个语音文本样本输入多流编码器中，得到每个语音文本样本对应的文本特征；通过文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到生成虚拟语音的目标声学模型，即本发明专利技术可支持跨语种数据训练及跨语种发音人的生成，多流编码器能更好的捕捉不同语种中的文本特征，提升虚拟预设生成的灵活性以及可靠性，进而解决了现有技术中，生成虚拟语音的灵活性以及可靠性较低的技术问题。虚拟语音的灵活性以及可靠性较低的技术问题。虚拟语音的灵活性以及可靠性较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟语音的生成方法、装置、存储介质及电子装置

[0001]本专利技术涉及语音处理技术相关领域，具体而言，涉及一种虚拟语音的生成方法、装置、存储介质及电子装置。

技术介绍

[0002]谷歌团队提出了TacoSpawn，一个合成现实中不存在的说话人的语音的方法，TacoSpawn基于Tacotron，使用最大似然估计来学习speaker embedding的分布，用来生成新的speaker embedding(即训练集中不存在的speaker)，再通过TTS合成相应的语音。这种技术可以用于隐私保护，因为生成speaker并不是真实存在的。
[0003]相关方案中，训练得到的speaker embedding作为训练数据模型来学习speaker embedding的分布。使用高斯混合模型(GMM)来参数化这个分布。推理时通过分布采样来生成新的说话人，GMM参数建模不能有效地对呈非线性或者近似线性的数据进行建模，鲁棒性较差。TacoSpawn只支持英语发音人的生成，并不支持跨语种的发音人生成，虚拟语音生成的灵活性较差。/>[0004]针对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种虚拟语音的生成方法，其特征在于，包括：获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标；将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征；将所述对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与所述每个语音文本样本对应的语音特征；通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。2.根据权利要求1所述的方法，其特征在于，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，包括：获取所述文本特征对应的语种的语音属性信息；基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；在所述损失函数满足预设条件的情况下，得到所述目标声学模型。3.根据权利要求1所述的方法，其特征在于，所述将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征，包括：将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；对所述多个类型的计算文本特征求和，得到所述文本特征。4.根据权利要求1所述的方法，其特征在于，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型之后，所述方法还包括：获取目标语音文本；将所述目标语音文本输入所述目标声学模型，得到所述目标语音文本对应的虚拟语音。5.一种虚拟语音的生成装置，其特征在于，包括：第一获取单元，用于获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个...

【专利技术属性】
技术研发人员：郁祖达，孙见青，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人