一种中文高保真语音合成音色定制方法技术

技术编号：40036629 阅读：34 留言：0更新日期：2024-01-16 19:04

本发明专利技术涉及语音合成技术领域，特别是涉及一种中文高保真语音合成音色定制方法，包括S1、单独训练语音合成模型的文本编码器模块，并将文本编码器与BERT的特征空间进行对齐；S2、在具有多个发音人的数据集上训练一个基础语音合成模型；S3、利用动态规划算法进行最优录音语料的选取；S4、用户根据选取的语料录制声音，并构建微调所使用的训练集；S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调；S6、完成音色定制。本发明专利技术方案采用动态规划进行最优的语料选取，使用户的录音样本包含更全面的发音信息；本发明专利技术通过预训练BERT语言模型使合成出来的语音停顿更加自然，通过引入对抗网络，使训练出的音色更加符合定制角色的特点，实现高保真效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成，特别是涉及一种中文高保真语音合成音色定制方法。

技术介绍

1、语音合成(text to speech，tts)是将语言文字内容转化成语音的过程。而音色定制是在此基础上，根据用户提供的少量录音样本，使合成出来的任意语音都具有该用户的音色特点。与本专利技术方案最相近的技术是一种被称为语音克隆(voice clone，vc)的技术。目前该技术主要有以下两个难题：1.合成出来的语音存在不自然的停顿现象，韵律欠佳，难以保留原始发音的韵律；2.当用户提供的语音样本时长较短时，由于语料(文字)较少，涵盖的发音信息相应也较少，会给定制的音色带来不利的影响。

技术实现思路

1、本专利技术目的是针对
技术介绍
中存在的问题，提出一种中文高保真语音合成音色定制方法，通过预训练bert语言模型使合成出来的语音停顿更加符合定制角色的特点，实现高保真的定制效果；针对用户录音语料较少的问题，本专利技术方案采用动态规划的方法进行最优的语料选取，使用户的录音样本包含更全面的发音信息。

2、本...

【技术保护点】

1.一种中文高保真语音合成音色定制方法，其特征在于，包括以下具体步骤：

2.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为：

3.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，S2中还包括以下步骤：

4.根据权利要求3所述的一种中文高保真语音合成音色定制方法，其特征在于，S23还包括以下步骤：

5.根据权利要求4所述的一种中文高保真语音合成音色定制方法，其特征在于，通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值，得到语音信号的...

【技术特征摘要】

1.一种中文高保真语音合成音色定制方法，其特征在于，包括以下具体步骤：

2.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，s1中将文本编码器与bert模型提取的语言特征进行对齐的损失函数为：

3.根据权利要求1所述的一种中文高保真语音合成音色定制方法，其特征在于，s2中还包括以下步骤：

4.根据权利要求3所述的一种中文高保真语音合成音色定制方法，其特征在于，s23还包括以下步骤：

5.根据权利要求4所述的一种中文高保真语音合成音色定制方法，其特征在于，通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值，得到语音信号的重建损失：

6.根据权利要求5所述的一种中文高保真语音合成音色定制方法，其特征在于，通过mas单调对齐搜索算法计算音素的发音时长损失：

7.根据...

【专利技术属性】
技术研发人员：杨帆，孙宇飞，郝强，潘鑫淼，胡建国，
申请(专利权)人：小视科技江苏股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人