一种高表现力歌唱声音合成模型训练方法、合成方法及装置制造方法及图纸

技术编号：43550489 阅读：32 留言：0更新日期：2024-12-03 12:33

本发明专利技术提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置，获取歌词文本以及由真实歌声预测得到的乐谱序列；将歌词文本转换为音素信息，从歌声音频数据中提取歌声的物理信息并分析，得到强度信息；将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列，由时长预测器确定每个字的持续时长，将文本嵌入序列和持续时长输入长度约束器生成语音表征；将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱；将基频、梅尔谱和语音表征相加得到混合嵌入向量，将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量，由声码器合成预测歌声。本发明专利技术提供的方法对各属性进行细粒度建模，避免耦合，合成高质量歌声。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种高表现力歌唱声音合成模型训练方法、合成方法及装置。

技术介绍

1、歌声既是一种人们借以传达信息的媒介，也是一种传达创作者、歌唱者思绪的艺术形式。随着人工智能及计算机技术的不断发展，高表现力的歌声合成技术是人工智能必不可少的一个研究课题，同时也是现在计算机音乐的热门研究领域之一。

2、现阶段的歌声合成系统可以通过输入歌词和乐谱中的音高和持续时间，来合成自然的歌声。但是，在高表现力歌声合成任务中，需要对歌声进行四个方面的控制来实现高表现力的歌声生成：旋律，强度，节奏和音色。目前的高表现力歌声合成系统缺乏对歌声强度的建模与控制，若用户想细粒度的操作歌声的上述属性，较为困难。

3、现有的歌声合成技术方案包括声学模型和声码器两部分组成，其中声学模型由文本编码器，乐谱编码器，编码器，变量适配器，长度约束器和梅尔编码器构成。文本编码器和乐谱编码器读取歌词，对音高和持续时间进行初步建模，编码器对建模得到的音高和持续时间进一步编码。变量适配器从四个方面对合成歌声进行控制：音色，感情，音高，能量，...

【技术保护点】

1.一种高表现力歌唱声音合成模型训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，获取待合成的歌词文本，以及由真实歌声预测得到的乐谱序列，所述乐谱序列采用乐器数字接口格式。

3.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，根据每个字的基频计算其谐波能量，包括：

4.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，将每个字的时间平均谐波能量预处理后映射至预设范围，包括：

5.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于...

【技术特征摘要】

1.一种高表现力歌唱声音合成模型训练方法，其特征在于，所述方法包括以下步骤：

3.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，根据每个字的基频计算其谐波能量，包括：

4.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，将每个字的时间平均谐波能量预处理后映射至预设范围，包括：

5.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，将所述混合嵌入向量依次输入所述transformer和所述连续语音单元表征模块，生成连续语音单元向量之后...

【专利技术属性】
技术研发人员：王风平，李雅，娄帆，
申请(专利权)人：上海艾特欧数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人