用于生成音频的方法、装置、设备和介质制造方法及图纸

技术编号：26261143 阅读：42 留言：0更新日期：2020-11-06 17:57

本公开的实施例公开了用于生成音频的方法、装置、设备和介质。该用于生成音频的方法的一具体实施方式包括：获取目标普通话文本信息和目标用户发出的用户语音音频的音色信息；将目标普通话文本信息转换为与其对应的目标方言文本信息；基于目标方言文本信息和用户语音音频的音色信息，生成目标语音音频，其中，目标语音音频的音色与用户语音音频的音色信息相匹配，目标方言文本信息用于指示目标语音音频所对应的文本信息。该实施方式可以将普通话文本转换为与其对应的方言语音音频，并且方言语音音频具有目标用户发出的语音音频的音色，由此丰富了语音音频的生成方式。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成音频的方法、装置、设备和介质
本公开的实施例涉及计算机
，具体涉及用于生成音频的方法、装置、设备和介质。
技术介绍
文本到语音(TextToSpeech，TTS)又称语音合成，是一种将文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。现有的通用语音合成技术主要是只预先录制一个单音色语音库，然后基于该语音库制作一个语音合成系统，此方法的合成语音取决于语音库，即合成的声音像是录音人在说话。此过程仅仅将用户输入的文本转换成单一音色的语音，这种语音的音色、语气等属性也非常单一化。
技术实现思路
本公开提出了用于生成音频的方法、装置、设备和介质。第一方面，本公开的实施例提供了一种用于生成音频的方法，该方法包括：获取目标普通话文本信息和目标用户发出的用户语音音频的音色信息；将目标普通话文本信息转换为与其对应的目标方言文本信息；基于目标方言文本信息和用户语音音频的音色信息，生成目标语音音频，其中，目标语音音频...

【技术保护点】
1.一种用于生成音频的方法，包括：/n获取目标普通话文本信息和目标用户发出的用户语音音频的音色信息；/n将所述目标普通话文本信息转换为与其对应的目标方言文本信息；/n基于所述目标方言文本信息和用户语音音频的音色信息，生成目标语音音频，其中，所述目标语音音频的音色与用户语音音频的音色信息相匹配，所述目标方言文本信息用于指示目标语音音频所对应的文本信息。/n

【技术特征摘要】
1.一种用于生成音频的方法，包括：
获取目标普通话文本信息和目标用户发出的用户语音音频的音色信息；
将所述目标普通话文本信息转换为与其对应的目标方言文本信息；
基于所述目标方言文本信息和用户语音音频的音色信息，生成目标语音音频，其中，所述目标语音音频的音色与用户语音音频的音色信息相匹配，所述目标方言文本信息用于指示目标语音音频所对应的文本信息。

2.根据权利要求1所述的方法，其中，所述基于所述目标方言文本信息和用户语音音频的音色信息，生成目标语音音频，包括：
提取目标方言文本信息的文本特征信息；
将文本特征信息输入预训练的编码器，得到编码后的文本特征信息；
将编码后的文本特征信息和用户语音音频的音色信息输入预训练的解码器，得到梅尔频谱信息；
将所述梅尔频谱信息输入声码器，得到目标语音音频。

3.根据权利要求2所述的方法，其中，所述预训练的编码器和预训练的解码器通过以下方式训练得到：
获取标注有梅尔频谱信息的不同用户提供的音频样本；
将所述音频样本输入待训练的编码器，得到编码后的音频样本；
将编码后的音频样本分别输入文本特征信息分类器和音色信息分类器，得到分类后的文本特征信息和分类后的音色信息；
将所述分类后的文本特征信息和所述分类后的音色信息输入待训练的解码器，得到预测的梅尔频谱信息；
根据标注的梅尔频谱信息与预测的梅尔频谱信息的偏差，调整编码器和解码器的参数，直到所述偏差满足预设条件，则得到训练完成的编码器和解码器。

4.根据权利要求1所述的方法，其中，所述用户语音音频的音色信息基于目标用户提供的音频数据和预训练的音色编码器得到。

5.根据权利要求1所述的方法，其中，所述基于所述目标方言文本信息和用户语音音频的音色信息，生成目标语音音频，包括：<...

【专利技术属性】
技术研发人员：殷翔，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人