用于生成音频的方法、装置、设备和介质制造方法及图纸

技术编号：26261144 阅读：62 留言：0更新日期：2020-11-06 17:57

本公开的实施例公开了用于生成音频的方法、装置、设备和介质。该用于生成音频的方法的一具体实施方式包括：获取说话人无关信息和目标用户发出的用户语音音频的音色信息；基于说话人无关信息和用户语音音频的音色信息，生成目标语音音频。该实施方式可以将说话文本转换为歌唱语音音频并且保持用户语音音频的音色及其对应的文本信息，由此提升了生成语音音频的准确度，丰富了语音音频的生成方式。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成音频的方法、装置、设备和介质
本公开的实施例涉及计算机
，具体涉及用于生成音频的方法、装置、设备和介质。
技术介绍
目前，在音频信号处理领域，常见的音频处理方式包括：格式转换、音频拼接、加快或减慢音频节奏等等。然而，音频通常可以包含响度、音调、频率、音色、乐音等多项特征，每一项特征的差异，都将产生音频的不同。例如，现阶段，越来越多的人喜欢用歌曲来表达自己的情感、释放压力等等。而由于唱歌技巧的缺乏，用户往往难以演绎出自己满意的歌曲，存在走音、跑调、音不准等问题。
技术实现思路
本公开提出了用于生成音频的方法、装置、设备和介质。第一方面，本公开的实施例提供了一种用于生成音频的方法，该方法包括：获取说话人无关信息和目标用户发出的用户语音音频的音色信息，其中，说话人无关信息包括：目标音高信息、目标歌词信息、目标音素时长信息；基于说话人无关信息和用户语音音频的音色信息，生成目标语音音频，其中，目标语音音频的音色与用户语音音频的音色信息相匹配，目标歌词信息用于指示目标语音音频所对应的文本信息，目...

【技术保护点】
1.一种用于生成音频的方法，包括：/n获取说话人无关信息和目标用户发出的用户语音音频的音色信息，其中，所述说话人无关信息包括：目标音高信息、目标歌词信息、目标音素时长信息；/n基于所述说话人无关信息和所述用户语音音频的音色信息，生成目标语音音频，其中，所述目标语音音频的音色与用户语音音频的音色信息相匹配，所述目标歌词信息用于指示目标语音音频所对应的文本信息，所述目标音高信息用于指示目标语音音频的音高，所述目标音素时长信息用于指示目标语音音频的音素时长。/n

【技术特征摘要】
1.一种用于生成音频的方法，包括：
获取说话人无关信息和目标用户发出的用户语音音频的音色信息，其中，所述说话人无关信息包括：目标音高信息、目标歌词信息、目标音素时长信息；
基于所述说话人无关信息和所述用户语音音频的音色信息，生成目标语音音频，其中，所述目标语音音频的音色与用户语音音频的音色信息相匹配，所述目标歌词信息用于指示目标语音音频所对应的文本信息，所述目标音高信息用于指示目标语音音频的音高，所述目标音素时长信息用于指示目标语音音频的音素时长。

2.根据权利要求1所述的方法，其中，所述目标音素时长信息基于时长模型和歌唱音频数据得到。

3.根据权利要求1所述的方法，其中，所述基于所述说话人无关信息和所述用户语音音频的音色信息，生成目标语音音频，包括：
将说话人无关信息输入预训练的编码器，得到编码后的说话人无关信息；
将编码后的说话人无关信息和用户语音音频的音色信息输入预训练的解码器，得到梅尔频谱信息，其中，所述用户语音音频的音色信息基于目标用户提供的音频数据和预训练的音色编码器得到；
将所述梅尔频谱信息输入声码器，得到目标语音音频。

4.根据权利要求3所述的方法，其中，所述预训练的编码器和预训练的解码器通过以下方式训练得到：
获取标注有梅尔频谱信息的不同用户提供的音频样本；
将所述音频样本输入待训练的编码器，得到编码后的音频样本；
将编码后的音频样本分别输入说话人无关信息分类器和音色信息分类器，得到分类后的说话人无关信息和分类后的音色信息；
将分类后的说话人无关信息和分类后的音色信息输入解码器，得到预测的梅尔频谱信息；
根据标注的梅尔频谱信息与预测的梅尔频谱信息的偏差，调整编码器和解码器的参数，直到所述偏差满足预设条件，则得到训练完成的编码器和解码器。

5.根据权利要求3所述的方法，其中，所述目标音高信息包括进行音高增广后的目标音高信息，所述目标音素时长信息包括进行时长增...

【专利技术属性】
技术研发人员：殷翔，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人