一种语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29875740 阅读:15 留言:0更新日期:2021-08-31 23:51
本发明专利技术实施例提供了一种语音合成方法、装置、计算机设备和存储介质,该方法包括:在本实施例中,接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息,识别参考语音信号中表征音色的特征,作为目标音色,确定为目标语言训练的语音合成器,语音合成器包括声学模型、声码器,在声学模型中,将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征,作为目标频谱特征,在声码器中,将目标频谱特征转换为属于目标语言的目标语音信号,作为非目标语言的参考语音信号的音色并未用于针对目标语言训练语音合成器,在实现跨语种的语音合成的场景中,可实现未见说话者的音色克隆。

【技术实现步骤摘要】
一种语音合成方法、装置、计算机设备和存储介质
本专利技术实施例涉及语音处理的
,尤其涉及一种语音合成方法、装置、计算机设备和存储介质。
技术介绍
TTS(TextToSpeech,文字转语音)旨在将文字转换为语音,是人机对话的一部分,让机器能够说话,近年来,随着声学模型和声码器技术的飞速发展,TTS在语音助手,有声读物和口语对话系统等许多领域都发挥着重要作用。TTS可以为拥有大量高质量语音的说话者生成自然语音,几乎可以以假乱真,目前,TTS受限于训练集,对已训练的说话者的音色进行克隆,但是,说话者的音色较难获取,尤其是在跨语种的TTS的场景中,难以采集说话者的音色,并且,众多说话者的音色均有所不同,采集众多说话者的音色将会大大增加训练集的数据量,导致训练的难度大大增加。
技术实现思路
本专利技术实施例提出了一种语音合成方法、装置、计算机设备和存储介质,以解决在未见音色的情况下如何克隆音色进行语言合成的问题。第一方面,本专利技术实施例提供了一种语音合成方法,包括:接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息;识别所述参考语音信号中表征音色的特征,作为目标音色;确定为所述目标语言训练的语音合成器,所述语音合成器包括声学模型、声码器;在所述声学模型中,将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征,作为目标频谱特征;在所述声码器中,将所述目标频谱特征转换为属于所述目标语言的目标语音信号。第二方面,本专利技术实施例还提供了一种语音合成装置,包括:合成信息接收模块,用于接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息;目标音色提取模块,用于识别所述参考语音信号中表征音色的特征,作为目标音色;语音合成器确定模块,用于确定为所述目标语言训练的语音合成器,所述语音合成器包括声学模型、声码器;目标频谱特征生成模块,用于在所述声学模型中,将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征,作为目标频谱特征;目标语音信号生成模块,用于在所述声码器中,将所述目标频谱特征转换为属于所述目标语言的目标语音信号。第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的语音合成方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音合成方法。在本实施例中,接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息,识别参考语音信号中表征音色的特征,作为目标音色,确定为目标语言训练的语音合成器,语音合成器包括声学模型、声码器,在声学模型中,将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征,作为目标频谱特征,在声码器中,将目标频谱特征转换为属于目标语言的目标语音信号,作为非目标语言的参考语音信号的音色并未用于针对目标语言训练语音合成器,在实现跨语种的语音合成的场景中,可实现未见说话者的音色克隆,使得语音合成器并不受限于训练集,可以保证训练集的数据量合适,降低训练的难度。附图说明图1为本专利技术实施例一提供的一种语音合成方法的流程图;图2为本专利技术实施例一提供的一种;图3是本专利技术实施例二提供的一种语音合成方法的流程图;图4为本专利技术实施例三提供的一种语音合成装置的结构示意图;图5为本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种语音合成方法的流程图,本实施例可适用于在未见音色的情况下训练语音合成器中的声学模型的情况,该方法可以由语音合成装置来执行,该语音合成装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑,等等,具体包括如下步骤:步骤101、获取样本语音信号、表达样本语音信号内容的样本文本信息、由样本语音信号转换的样本频谱特征。传统跨语言合成的TTS模型通常使用说话者数量较少(如几个或十几个说话者),本实施例的语音合成器的架构鲁棒性更强,可支持使用大型多说话者语料(如上百上千说话者)进行训练,从而在合成时保证跨语言的语音信号口音准确、发音可懂度高、表现力强。为便于采集足够数量的数据集,可以在一些大型的开源数据库和/或开源项目等通用的渠道中采集说话者在指定风格下说话时记录的音频信号、表达音频信号内容的文本信息,即,说话者说出“文本信息”时记录音频信号,为便于区分,该音频信号记为样本音频信号,该文本信息记为样本文本信息。此外,可通过傅立叶变换(FourierTransform,FT)、快速傅立叶变换(fastFouriertransform,FFT)等方式将样本音频信号转换为频谱特征,如MelSpectrogram(梅尔频谱图),记为样本频谱特征。当然,为提高TTS在业务场景的性能,也可以通过业务场景(如短视频、游戏、新闻、小说等)的渠道采集说话者在说话时记录的音频信号、作为样本音频信号,并将该样本音频信号内容通过人工标注、语音识别等方式转换为文本信息、作为样本文本信息,傅立叶变换、快速傅立叶变换等方式将样本音频信号转换为频谱特征、作为样本频谱信号,本实施例对此不加以限制。目前的TTS模型,通常是共同使用不同语言的语料进行训练,包括待合成的目标语言的语料,也包括非目标语言的语料,容易引入非目标语言的口音,例如,中国人在说中文时,如果夹杂英文,英文会带有中文的口音,这样子会使得合成目标语言的语音信号时,尤其是跨语种合成语音信号,容易出现错误的口音的情况。在本实施例中,设定作为TTS的目标的语言,记为目标语言,样本语言信号、样本文本信息均全部属于目标语言,即,本实施例仅使用属于目标语言的语料训练语音合成器,并不使用非目标语言的语料训练语音合成器,可以保证准确的目标语言(口音,发音可懂度)被单纯的目标语言的语料训练出来。进一步而言,对于样本文本信息,可以使用目标语言的因素、韵律结构等惯用表示,例如,如果目标语言为英文语言,则使用英文因素表示样本文本信息。步骤102、识别样本语音信号中表征音色的特征,作为样本音色。在本实施例中,可以实时从样本语音信号中表征音色的特征,记为样本音色。一般情况下,每个说话者的音色均有所差异,一个说话者可以表征一种音色,对说话者可以配置唯一的标识信息(如speakerID),即该标识信息(如speakerID)可以用于表征音本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息;/n识别所述参考语音信号中表征音色的特征,作为目标音色;/n确定为所述目标语言训练的语音合成器,所述语音合成器包括声学模型、声码器;/n在所述声学模型中,将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征,作为目标频谱特征;/n在所述声码器中,将所述目标频谱特征转换为属于所述目标语言的目标语音信号。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息;
识别所述参考语音信号中表征音色的特征,作为目标音色;
确定为所述目标语言训练的语音合成器,所述语音合成器包括声学模型、声码器;
在所述声学模型中,将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征,作为目标频谱特征;
在所述声码器中,将所述目标频谱特征转换为属于所述目标语言的目标语音信号。


2.根据权利要求1所述的方法,其特征在于,所述识别所述参考语音信号中表征音色的特征,作为目标音色,包括:
从所述参考语音信号提取声学的特征,作为目标声学特征;
从所述目标声学特征中提取用于对说话者进行分类的特征,作为目标音色。


3.根据权利要求1所述的方法,其特征在于,所述声学模型包括作为编码器的CBHG模块、逐步单调注意力机制、作为解码器的三个循环神经网络、Post-Net网络;
所述在所述声学模型中,将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征,作为目标频谱特征,包括:
在所述编码器中,调用所述CBHG模块将所述目标文本信息编码为目标文本特征;
拼接所述目标文本特征与所述目标音色,获得目标组合特征;
执行所述逐步单调注意力机制,对所述目标组合特征添加转换为频谱特征时的注意力,生成目标注意力特征;
在所述解码器中,依次调用三个所述循环神经网络将所述目标注意力特征解码为多帧目标频谱特征;
在所述Post-Net网络中,在时序的维度下,对多帧所述目标频谱特征进行修正。


4.根据权利要求3所述的方法,其特征在于,所述编码器还包括PreNet网络;
所述在所述编码器中,调用所述CBHG模块将所述目标文本信息编码为目标文本特征,包括:
查询所述目标文本信息中每个文字的向量、作为第一目标向量序列;
在所述PreNet网络中,对所述第一目标向量序列进行非线性转换,获得第二目标向量序列;
在所述CBHG模块中,从所述第二目标向量序列中提取特征,作为目标文本特征。


5.根据权利要求3所述的方法,其特征在于,所述执行所述逐步单调注意力机制,对所述目标组合特征添加转换为频谱特征时的注意力,生成目标注意力特征,包括:
执行所述逐步单调注意力机制,计算将当前帧所述目标组合特征转换为频谱特征时、对每一帧所述目标组合特征的注意力;
将所述注意力进行线性融合,得到目标注意力特征,其中,在所述逐步单调注意力机制中,所述目标组合特征与所述目标注意力特征之间的顺序维持单调。


6.根据权利要求3所述的方法,其特征在于,所述解码器还包括PreNet网络,三个所述循环神经网络包括第一长短期记忆网络、第二长短期记忆网络、门控循环单元;
所述在所述解码器中,依次调用三个所述循环神经网络将所述目标注意力特征解码为多帧目标频谱特征,包括:
在所述PreNet网络中,对上一帧目标频谱特征进行非线性转换;
在所述门控循环单元中,对上一帧所述目标频谱特征进行处理,获得目标注意力上下文;
在所述第一长短期记忆网络中,对所述目标注意力上下文进行解码,获得候选频谱特征;
...

【专利技术属性】
技术研发人员:户建坤康世胤吴志勇陈学源刘峰
申请(专利权)人:广州虎牙科技有限公司清华大学深圳国际研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1