歌声合成方法及相关装置制造方法及图纸

技术编号：37507132 阅读：35 留言：0更新日期：2023-05-07 09:44

本申请实施例提供了一种歌声合成方法及相关装置，其中方法包括：将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中，获得待合成音频的共振峰表征信息，共振峰表征信息为无音色信息的表征信息；将待合成音频的共振峰表征信息以及音高信息输入到目标声学模型中的音色转换模型中，获得梅尔谱特征，合成的梅尔谱特征包括目标对象的音色信息，音色转换模型是基于目标对象的样本音频训练获得的；将梅尔谱特征输入到声码器中，获得合成的音频信号。可见，采用本申请实施例，可对任意音色跨语种的歌声进行合成。可对任意音色跨语种的歌声进行合成。可对任意音色跨语种的歌声进行合成。

全部详细技术资料下载

【技术实现步骤摘要】
歌声合成方法及相关装置

[0001]本申请涉及计算机
，尤其涉及一种歌声合成方法及相关装置。

技术介绍

[0002]随着人工智能在音乐领域的不断发展，音乐应用中的歌声合成技术也越来越受到关注，其中，歌声合成技术是语音合成技术的一个新的应用，其主要是通过计算机程序，将乐谱信息和歌词合成接近真人演唱的歌声。目前，在进行歌声合成时，一般采用数据驱动的神经网络模型来实现，该方法支持的语种(即语言种类，例如国语、粤语、闽南语等)和目标音色对应的歌声数据有关系，其中，歌声数据包括指定人员(专业歌手)发出的演唱声音和伴奏乐器的声音(当没有伴奏乐器时，歌声数据即为指定人员发出的演唱声音)，且语种和目标音色之间不能解耦，从而，使用该方法无法对任意音色跨语种的歌声进行合成。因此，如何实现跨语种的歌声合成成为了一个亟待解决的问题。

技术实现思路

[0003]本申请实施例提供一种歌声合成方法及相关装置，可对任意音色跨语种的歌声进行合成。
[0004]第一方面，本申请实施例提供了一种歌声合成方法，该方法包括：
[...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法，其特征在于，所述方法包括：将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中，获得所述待合成音频的共振峰表征信息，所述共振峰表征信息为无音色信息的表征信息；将所述待合成音频的共振峰表征信息以及音高信息输入到所述目标声学模型中的音色转换模型中，获得梅尔谱特征，所述合成的梅尔谱特征包括所述目标对象的音色信息，所述音色转换模型是基于所述目标对象的样本音频训练获得的；将所述梅尔谱特征输入到声码器中，获得合成的音频信号。2.根据权利要求1所述的方法，其特征在于，所述将待合成音频的音节序列和基频标记序列输入到目标声学模型中的共振峰模型中之前，所述方法还包括：获取训练样本音频集，所述训练样本音频集中包括多个对象的样本音频；基于所述训练样本音频集中的每个样本音频对初始化的声学模型进行训练，得到训练后的声学模型；将所述训练后的声学模型中的共振峰模型作为目标声学模型中的共振峰模型；其中，所述初始化的声学模型包括初始化的共振峰模型和初始化的音色转换模型。3.根据权利要求2所述的方法，其特征在于，所述得到训练后的声学模型之后，所述方法还包括：固定所述训练后的声学模型中共振峰模型的参数，并将目标对象对应的样本音频输入到所述训练后的声学模型中，对所述训练后的声学模型中的音色转换模型进行训练，得到训练后的音色转换模型；将所述训练后的音色转换模型作为所述目标声学模型中的音色转换模型。4.根据权利要求2所述的方法，其特征在于，所述基于所述训练样本音频集中的每个样本音频对初始化的声学模型进行训练，得到训练后的声学模型，包括：获取所述训练样本音频集中每个训练样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征，所述声学特征为梅尔谱特征；利用所述每个样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征对所述初始化的声学模型进行训练，得到所述训练后的声学模型。5.根据权利要求4所述的方法，其特征在于，所述利用所述每个样本音频的音节序列、基频标记序列、音高信息、音色信息以及声学特征对所述初始化的声学模型进行训练，得到所述训练后的声学模型，包括：将所述每个样本音频的...

【专利技术属性】
技术研发人员：庄晓滨，陈梦，宗旋，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人