一种语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：29875740 阅读：15 留言：0更新日期：2021-08-31 23:51

本发明专利技术实施例提供了一种语音合成方法、装置、计算机设备和存储介质，该方法包括：在本实施例中，接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息，识别参考语音信号中表征音色的特征，作为目标音色，确定为目标语言训练的语音合成器，语音合成器包括声学模型、声码器，在声学模型中，将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征，作为目标频谱特征，在声码器中，将目标频谱特征转换为属于目标语言的目标语音信号，作为非目标语言的参考语音信号的音色并未用于针对目标语言训练语音合成器，在实现跨语种的语音合成的场景中，可实现未见说话者的音色克隆。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、装置、计算机设备和存储介质
本专利技术实施例涉及语音处理的
，尤其涉及一种语音合成方法、装置、计算机设备和存储介质。
技术介绍
TTS(TextToSpeech，文字转语音)旨在将文字转换为语音，是人机对话的一部分，让机器能够说话，近年来，随着声学模型和声码器技术的飞速发展，TTS在语音助手，有声读物和口语对话系统等许多领域都发挥着重要作用。TTS可以为拥有大量高质量语音的说话者生成自然语音，几乎可以以假乱真，目前，TTS受限于训练集，对已训练的说话者的音色进行克隆，但是，说话者的音色较难获取，尤其是在跨语种的TTS的场景中，难以采集说话者的音色，并且，众多说话者的音色均有所不同，采集众多说话者的音色将会大大增加训练集的数据量，导致训练的难度大大增加。
技术实现思路
本专利技术实施例提出了一种语音合成方法、装置、计算机设备和存储介质，以解决在未见音色的情况下如何克隆音色进行语言合成的问题。第一方面，本专利技术实施例提供了一种语音合成方法，包括：接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息；识别所述参考语音信号中表征音色的特征，作为目标音色；确定为所述目标语言训练的语音合成器，所述语音合成器包括声学模型、声码器；在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征；在所述声码器中，将所述目标频谱特征转换为属于所述目标语言的目标语音信号。第二方...

【技术保护点】
1.一种语音合成方法，其特征在于，包括：/n接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息；/n识别所述参考语音信号中表征音色的特征，作为目标音色；/n确定为所述目标语言训练的语音合成器，所述语音合成器包括声学模型、声码器；/n在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征；/n在所述声码器中，将所述目标频谱特征转换为属于所述目标语言的目标语音信号。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：
接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息；
识别所述参考语音信号中表征音色的特征，作为目标音色；
确定为所述目标语言训练的语音合成器，所述语音合成器包括声学模型、声码器；
在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征；
在所述声码器中，将所述目标频谱特征转换为属于所述目标语言的目标语音信号。

2.根据权利要求1所述的方法，其特征在于，所述识别所述参考语音信号中表征音色的特征，作为目标音色，包括：
从所述参考语音信号提取声学的特征，作为目标声学特征；
从所述目标声学特征中提取用于对说话者进行分类的特征，作为目标音色。

3.根据权利要求1所述的方法，其特征在于，所述声学模型包括作为编码器的CBHG模块、逐步单调注意力机制、作为解码器的三个循环神经网络、Post-Net网络；
所述在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征，包括：
在所述编码器中，调用所述CBHG模块将所述目标文本信息编码为目标文本特征；
拼接所述目标文本特征与所述目标音色，获得目标组合特征；
执行所述逐步单调注意力机制，对所述目标组合特征添加转换为频谱特征时的注意力，生成目标注意力特征；
在所述解码器中，依次调用三个所述循环神经网络将所述目标注意力特征解码为多帧目标频谱特征；
在所述Post-Net网络中，在时序的维度下，对多帧所述目标频谱特征进行修正。

4.根据权利要求3所述的方法，其特征在于，所述编码器还包括PreNet网络；
所述在所述编码器中，调用所述CBHG模块将所述目标文本信息编码为目标文本特征，包括：
查询所述目标文本信息中每个文字的向量、作为第一目标向量序列；
在所述PreNet网络中，对所述第一目标向量序列进行非线性转换，获得第二目标向量序列；
在所述CBHG模块中，从所述第二目标向量序列中提取特征，作为目标文本特征。

5.根据权利要求3所述的方法，其特征在于，所述执行所述逐步单调注意力机制，对所述目标组合特征添加转换为频谱特征时的注意力，生成目标注意力特征，包括：
执行所述逐步单调注意力机制，计算将当前帧所述目标组合特征转换为频谱特征时、对每一帧所述目标组合特征的注意力；
将所述注意力进行线性融合，得到目标注意力特征，其中，在所述逐步单调注意力机制中，所述目标组合特征与所述目标注意力特征之间的顺序维持单调。

6.根据权利要求3所述的方法，其特征在于，所述解码器还包括PreNet网络，三个所述循环神经网络包括第一长短期记忆网络、第二长短期记忆网络、门控循环单元；
所述在所述解码器中，依次调用三个所述循环神经网络将所述目标注意力特征解码为多帧目标频谱特征，包括：
在所述PreNet网络中，对上一帧目标频谱特征进行非线性转换；
在所述门控循环单元中，对上一帧所述目标频谱特征进行处理，获得目标注意力上下文；
在所述第一长短期记忆网络中，对所述目标注意力上下文进行解码，获得候选频谱特征；
...

【专利技术属性】
技术研发人员：户建坤，康世胤，吴志勇，陈学源，刘峰，
申请(专利权)人：广州虎牙科技有限公司，清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人