用于生成音频的方法、装置、设备和介质制造方法及图纸

技术编号：28053438 阅读：24 留言：0更新日期：2021-04-14 13:19

本公开的实施例公开了用于生成音频的方法、装置、设备和介质。该用于生成音频的方法的一具体实施方式包括：获取源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息；基于源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息，生成目标语音音频，其中，目标年龄段标签信息用于指示目标语音音频所属的年龄段信息，目标语音音频的音色与目标语音音色信息相匹配。该实施方式可以将源说话人的声学特征信息转换为具有目标年龄段标签信息和目标语音音色信息的语音音频，由此实现了语音音频所属的年龄段与音色的切换，丰富了语音音频的生成方式。丰富了语音音频的生成方式。丰富了语音音频的生成方式。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成音频的方法、装置、设备和介质

[0001]本公开的实施例涉及计算机
，具体涉及用于生成音频的方法、装置、设备和介质。

技术介绍

[0002]近年来，由于短视频和数字娱乐媒体的迅猛发展，将源说话人语音转变为不同年龄段的指定说话人的语音得到了广泛关注和研究。
[0003]对源说话人的语音进行切换的方式主要是利用频谱搬移，将语音信号转换为频域信号，然后在频域上，将信号频谱整体搬移到高频域范围，最后再将其变换回时域，最终完成变声目的。

技术实现思路

[0004]本公开提出了用于生成音频的方法、装置、设备和介质。
[0005]第一方面，本公开的实施例提供了一种用于生成音频的方法，该方法包括：获取源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息；基于源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息，生成目标语音音频，其中，目标年龄段标签信息用于指示目标语音音频所属的年龄段信息，目标语音音频的音色与目标语音音色信息相匹配。
[0006]在一些实施例中，基于源说话...

【技术保护点】

【技术特征摘要】
1.一种用于生成音频的方法，包括：获取源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息；基于所述源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息，生成目标语音音频，其中，所述目标年龄段标签信息用于指示目标语音音频所属的年龄段信息，所述目标语音音频的音色与目标语音音色信息相匹配。2.根据权利要求1所述的方法，其中，所述基于所述源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息，生成目标语音音频，包括：将所述源说话人的声学特征信息输入预训练的生成对抗网络中生成网络中的编码器，得到编码后的声学特征信息；将编码后的声学特征信息、目标年龄段标签信息和目标语音音色信息输入预训练的生成对抗网络中生成网络中的解码器，得到目标声学特征信息；将所述目标声学特征信息输入声码器，得到目标语音音频。3.根据权利要求2所述的方法，其中，所述编码器和所述解码器通过以下方式训练得到：获取不同用户提供的标注有仅具有该用户语音音色信息的声学特征信息的声学特征信息样本；将声学特征信息样本输入待训练的编码器，得到编码后的声学特征信息样本；将所述编码后的声学特征信息样本输入解码器，得到预测的声学特征信息；基于所述预测的声学特征信息、与输入的声学特征信息样本相对应的具有期望的年龄段标签信息的声学特征信息和生成对抗网络中的判别网络，对生成网络的编码器和解码器进行训练，得到初步训练完成的编码器和解码器；根据标注的声学特征信息与预测的声学特征信息的偏差，调整初步训练完成的编码器和解码器的参数，直到所述偏差满足预设条件，则得到训练完成的编码器和解码器。4.根据权利要求3所述的方法，其中，所述基于所述预测的声学特征信息、与输入的声学特征信息样本相对应的具有期望的年龄段标签信息的声学特征信息和生成对抗网络中的判别网络，对生成网络的编码器和解码器进行训练，得到初步训练完成的编码器和解码器，包括：将预测的声学特征信息输入年龄段信息分类器，得...

【专利技术属性】
技术研发人员：汤本来，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人