一种多情感多说话人语音合成方法和系统技术方案

技术编号：40307629 阅读：20 留言：0更新日期：2024-02-07 20:51

针对现有的开源情感语音库一般规模较小进而限制情感语音合成质量的缺点，本发明专利技术提供了一种多情感多说话人语音合成方法和系统。方法包括：首先使用现有开源情感语音库训练一个语音情感分类器，去除该分类器的分类层可得到一个语音情感编码器。然后利用该语音情感编码器提取语音中的情感特征训练一个情感转换器，利用情感转换器构建出一个新的多说话人多种情感的情感语音库，最后利用构建的情感语音库和开源情感语音库训练一个情感语音生成器实现多情感多说话人语音合成。本发明专利技术依据情感转换器构建新情感语音库，再利用新情感语音库训练情感语音生成器，扩展了情感语音数据集、提升了情感语音合成质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音分析领域，更具体的，涉及一种多情感多说话人语音合成方法和系统。

技术介绍

1、语音合成是指将给定文本转换为给定说话人合成语音的技术。由于智能语音技术应用场景越来越广泛，比如语音播报、ai配音、智能音箱等。随着实际需求对语音合成效果的要求越来越高，中性合成语音已经不能满足实际需求了。人们追求更加灵活多变的语音、追加富含各类感情的语音、期盼能模拟出各种音色的语音。情感语音合成是目前语音合成领域一大研究趋势，然而公开的情感语音数据集存在难以获取、规模较小的问题，并且这类语音的标注也存在难以界定、略显主观、成本高昂等问题。并且就算能获取公开的情感语音数据集也还存在数据集说话人数量特别少的问题，这些因素限制了目前语音合成模型合成多个不同说话人的语音质量。另外，现有的情感语音合成方式也大都需要包含了大量不同说话人的情感语音数据，或者每一个说话人的多情感语音数据。基于此，一种最直接的方式是通过跨说话人情感迁移的方法去解决这类问题，可以先利用跨说话人情感迁移即先训练一个情感转换器让本来中性的、多说话人数据集中的音频可以包含不同类别的情...

【技术保护点】

1.一种多情感多说话人语音合成方法，其特征在于，包括：

2.根据权利要求1所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S01的具体过程为：

3.根据权利要求2所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S02的具体过程为：

4.根据权利要求3所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S03的具体过程为：

5.根据权利要求4所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤S05具体包括：

6.一种多情感多说话人语音合成系统，其特征在于，该系统包括：语音库获取模块：用于获取所需的...

【技术特征摘要】

1.一种多情感多说话人语音合成方法，其特征在于，包括：

2.根据权利要求1所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤s01的具体过程为：

3.根据权利要求2所述的一种多情感多说话人语音合成方法，其特征在于，所述步骤s02的具体过程为：

4.根据权利要求3所述的...

【专利技术属性】
技术研发人员：杨继臣，夏佳奇，王泳，伍均达，
申请(专利权)人：广东技术师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人