System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音合成,特别是涉及一种中文高保真语音合成音色定制方法。
技术介绍
1、语音合成(text to speech,tts)是将语言文字内容转化成语音的过程。而音色定制是在此基础上,根据用户提供的少量录音样本,使合成出来的任意语音都具有该用户的音色特点。与本专利技术方案最相近的技术是一种被称为语音克隆(voice clone,vc)的技术。目前该技术主要有以下两个难题:1.合成出来的语音存在不自然的停顿现象,韵律欠佳,难以保留原始发音的韵律;2.当用户提供的语音样本时长较短时,由于语料(文字)较少,涵盖的发音信息相应也较少,会给定制的音色带来不利的影响。
技术实现思路
1、本专利技术目的是针对
技术介绍
中存在的问题,提出一种中文高保真语音合成音色定制方法,通过预训练bert语言模型使合成出来的语音停顿更加符合定制角色的特点,实现高保真的定制效果;针对用户录音语料较少的问题,本专利技术方案采用动态规划的方法进行最优的语料选取,使用户的录音样本包含更全面的发音信息。
2、本专利技术的技术方案,一种中文高保真语音合成音色定制方法,包括以下具体步骤:
3、s1、单独训练语音合成模型的文本编码器模块etext,进行语言特征提取,并将文本编码器提取的语言特征与bert提取的语言特征这两个特征空间进行对齐;
4、s2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为tts底模;
5、s3、利用动态规划算法进行最优录音语料的选取;
...【技术保护点】
1.一种中文高保真语音合成音色定制方法,其特征在于,包括以下具体步骤:
2.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为:
3.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S2中还包括以下步骤:
4.根据权利要求3所述的一种中文高保真语音合成音色定制方法,其特征在于,S23还包括以下步骤:
5.根据权利要求4所述的一种中文高保真语音合成音色定制方法,其特征在于,通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
6.根据权利要求5所述的一种中文高保真语音合成音色定制方法,其特征在于,通过MAS单调对齐搜索算法计算音素的发音时长损失:
7.根据权利要求6所述的一种中文高保真语音合成音色定制方法,其特征在于,S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
8.根据权利要求2所述的一种中文高保真语音合成音色定制方法,其特征在于,文本编码器采用NLP领域中的T
9.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S3中利用背包算法选择K个句子的最优句子索引,并得到用于微调音色的语料T'={Ti|i∈IdxList}。
10.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S4中用户根据指定的语料进行文字朗读,并在每句话之间停顿1秒以上;
...【技术特征摘要】
1.一种中文高保真语音合成音色定制方法,其特征在于,包括以下具体步骤:
2.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,s1中将文本编码器与bert模型提取的语言特征进行对齐的损失函数为:
3.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,s2中还包括以下步骤:
4.根据权利要求3所述的一种中文高保真语音合成音色定制方法,其特征在于,s23还包括以下步骤:
5.根据权利要求4所述的一种中文高保真语音合成音色定制方法,其特征在于,通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
6.根据权利要求5所述的一种中文高保真语音合成音色定制方法,其特征在于,通过mas单调对齐搜索算法计算音素的发音时长损失:
7.根据...
【专利技术属性】
技术研发人员:杨帆,孙宇飞,郝强,潘鑫淼,胡建国,
申请(专利权)人:小视科技江苏股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。