一种多语言文本合成语音方法、装置、设备及存储介质制造方法及图纸

技术编号:24421707 阅读:43 留言:0更新日期:2020-06-06 14:26
本发明专利技术公开了一种多语言文本的语音合成方法、装置、设备及存储介质。所述方法包括:获取待合成多语言文本;将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码;将所有所述编码规则对应的文本编码转换为联合文本编码;将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征;将所述预测频谱特征输入声码器进行合成处理,得到与所述待合成多语言文本对应的目标语音。本发明专利技术有利于多语言文本的处理,降低了部署难度,降低了部署成本。

A method, device, device and storage medium of multilingual text synthesis speech

【技术实现步骤摘要】
【国外来华专利技术】一种多语言文本合成语音方法、装置、设备及存储介质
本申请涉及语音
,尤其涉及一种多语言文本的语音合成方法、装置、设备及存储介质。
技术介绍
语音合成是语音交互中一个重要的任务,它的目标是将文本信息合成出自然的像真人发出来的声音。传统的语音合成系统包括两个部分:前端和后端。前端的作用是对文本进行分析和语言学信息的提取,比如:分词,词性标注,韵律结构预测等。后端是将从前端获取的语言学信息合成出语音。在过去十多年,语音拼接合成和参数合成被广泛的应用,并且取得了不错的效果。拼接合成需要大量的语料,从语料中选取语音片段合成所需要的语音。虽然合成出的每个片段的语音自然度比较高,但是语音内的连续性不够好。参数合成虽然相对拼接合成需要更少的语料,但是往往因为模型比较复杂,包含了大量的参数,修改起来很费时费力。最近几年,随着深度学习的发展,端到端的语音合成系统被提出来,比如:Tacotron(端到端的深度学习语音合成模型)和Tacotron2,它们使用神经网络简化了传统语音合成的前端。Tacotron和Tacotron2首先直接从文本中生成频谱特征(Melspectrograms)然后使用声码器,比如:Griffin-Lim(采用Griffin-Lim算法音频生成模型)和WaveNet(原始音频生成模型)将频谱特征合成出语音。这种基于神经网络的端到端的模型很大程度上提高了合成的语音质量,其中,这里的端到端模型指的就是带有注意力机制的序列到序列的模型。将文本序列使用编码器映射到语义空间并生成一系列编码器隐藏状态,然后解码器使用注意力机制将这些语义空间的隐藏状态作为上下文信息,构造解码器隐藏状态,然后输出频谱特征帧。其中注意力机制中常常包括循环神经网络。循环神经网络可以由输入的序列生成输出的序列,输出的当前序列由之前所有的输出序列和当前的隐含状态共同决定。对于某一个特定的频谱帧,由于编码器的输入信息不足或者编码器的编码不充分,可能经过多次的循环之后,还是与实际有偏差。在合成的语音的表现上来看,听起来可能会是漏词或跳词。同时虽然在大多数场景下这种单一语言的语音合成系统已经能够满足日常的需求,但是对于一些特定的场景,比如机器人,翻译机等需要多种语言的语音合成系统。如果针对每一种语言训练一个系统,会给模型的部署带来很大的消耗。因此,开发一种不会漏词或跳词、部署简单的多语言文本的语音合成方法显得尤为重要。
技术实现思路
基于此,有必要针对上述问题,提出了一种多语言文本的语音合成方法、装置、设备及存储介质,用于解决现有技术中漏词或跳词、部署复杂的技术问题。第一方面,本专利技术一种多语言文本的语音合成方法,所述方法包括:获取待合成多语言文本;将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码;将所有所述编码规则对应的文本编码转换为联合文本编码;将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征;将所述预测频谱特征输入声码器进行合成处理,得到与所述待合成多语言文本对应的目标语音。在一个实施例中,所述将所有所述编码规则对应的文本编码转换为联合文本编码,包括:将所有所述编码规则对应的文本编码进行拼接,得到拼接文本编码;将所述拼接文本编码进行线性仿射变换,得到联合文本编码。在一个实施例中,所述将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征,包括:将所述联合文本编码进行高层特征提取得到联合文本编码高层特征;将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码,得到所述预测频谱特征。在一个实施例中,所述将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码,包括:将所述待合成多语言文本输入One-hot编码器进行编码,得到与One-hot编码器对应的One-hot文本编码;将所述待合成多语言文本输入UTF-8编码器进行编码,得到与UTF-8编码器对应的UTF-8文本编码;将所述待合成多语言文本输入音素编码器进行编码,得到与音素编码器对应的音素文本编码。在一个实施例中,所述将所有所述编码规则对应的文本编码进行拼接,得到拼接文本编码,包括:将所述One-hot文本编码、所述UTF-8文本编码、所述音素文本编码在通道维度上进行拼接,得到拼接文本编码,所述拼接文本编码包括三维数据;其中,第一维数据为所述One-hot文本编码,第二维数据为所述UTF-8文本编码,第三维数据为所述音素文本编码。在一个实施例中,所述将所述拼接文本编码进行线性仿射变换,得到联合文本编码,包括:将多维的所述拼接文本编码输入第一神经网络进行线性仿射变换对所述编码规则对应的文本编码进行选择,得到联合文本编码。在一个实施例中,所述将所述联合文本编码进行高层特征提取,得到联合文本编码高层特征,包括:将所述联合文本编码输入第二神经网络进行高层特征提取,得到联合文本编码高层特征。在一个实施例中,所述第二神经网络包括依次设置的字符级卷积神经网络、三个卷积层及双向长短时记忆循环神经网络。在一个实施例中,所述将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码,得到所述预测频谱特征,包括:获取标准频谱特征数据;将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器,所述解码器包括第三神经网络;所述解码器的第三神经网络根据所述联合文本编码、所述标准频谱特征数据结合注意力机制进行频谱特征预测,得到预测频谱特征。在一个实施例中,所述获取待合成多语言文本之前,还包括:获取待处理多语言文本;根据所述待处理多语言文本进行语言标准化处理,得到待合成多语言文本。第二方面,本专利技术还提出了一种多语言文本的语音合成装置,所述装置包括:联合编码模块,用于获取待合成多语言文本,将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码,将所有所述编码规则对应的文本编码转换为联合文本编码;语音合成模块,用于将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征,将所述预测频谱特征输入声码器进行合成处理,得到与所述待合成多语言文本对应的目标语音。在一个实施例中,所述联合编码模块包括分别编码子模块、联合编码子模块;所述分别编码子模块用于获取待合成多语言文本,将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码;所述联合编码子模块用于将所有所述编码规则对应的文本编码进行拼接,得到拼接文本编码,将所述拼接文本编码进行线性仿射变换,得到联合文本编码。在一个实施例中,所述语音合成模块包括高层特征提取子模块、频谱特征预测子模块;所述高层特征提取子模块用本文档来自技高网
...

【技术保护点】
1.一种多语言文本的语音合成方法,所述方法包括:/n获取待合成多语言文本;/n将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码;/n将所有所述编码规则对应的文本编码转换为联合文本编码;/n将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征;/n将所述预测频谱特征输入声码器进行合成处理,得到与所述待合成多语言文本对应的目标语音。/n

【技术特征摘要】
【国外来华专利技术】1.一种多语言文本的语音合成方法,所述方法包括:
获取待合成多语言文本;
将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码;
将所有所述编码规则对应的文本编码转换为联合文本编码;
将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征;
将所述预测频谱特征输入声码器进行合成处理,得到与所述待合成多语言文本对应的目标语音。


2.根据权利要求1所述的多语言文本的语音合成方法,其特征在于,所述将所有所述编码规则对应的文本编码转换为联合文本编码,包括:
将所有所述编码规则对应的文本编码进行拼接,得到拼接文本编码;
将所述拼接文本编码进行线性仿射变换,得到联合文本编码。


3.根据权利要求1所述的多语言文本的语音合成方法,其特征在于,所述将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征,包括:
将所述联合文本编码进行高层特征提取得到联合文本编码高层特征;
将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码,得到所述预测频谱特征。


4.根据权利要求2所述的多语言文本的语音合成方法,其特征在于,所述将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码,包括:
将所述待合成多语言文本输入One-hot编码器进行编码,得到与One-hot编码器对应的One-hot文本编码;
将所述待合成多语言文本输入UTF-8编码器进行编码,得到与UTF-8编码器对应的UTF-8文本编码;
将所述待合成多语言文本输入音素编码器进行编码,得到与音素编码器对应的音素文本编码。


5.根据权利要求4所述的多语言文本的语音合成方法,其特征在于,所述将所有所述编码规则对应的文本编码进行拼接,得到拼接文本编码,包括:
将所述One-hot文本编码、所述UTF-8文本编码、所述音素文本编码在通道维度上进行拼接,得到拼接文本编码,所述拼接文本编码包括三维数据;其中,第一维数据为所述One-hot文本编码,第二维数据为所述UTF-8文本编码,第三维数据为所述音素文本编码。


6.根据权利要求2所述的多语言文本的语音合成方法,其特征在于,所述将所述拼接文本编码进行线性仿射变换,得到联合文本编码,包括:
将多维的所述拼接文本编码输入第一神经网络进行线性仿射变换对所述编码规则对应的文本编码进行选择,得到联合文本编码。


7.根据权利要求3所述的多语言文本的语音合成方法,其特征在于,所述将所述联合文本编码进行高层特征提取,得到联合文本编码高层特征,包括:
将所述联合文本编码输入第二神经网络进行高层特征提取,得到联合文本编码高层特征。


8.根...

【专利技术属性】
技术研发人员:黄东延盛乐园熊友军
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1