歌声合成方法、计算机设备和计算机可读存储介质技术

技术编号：38992073 阅读：24 留言：0更新日期：2023-10-07 10:22

本申请涉及一种歌声合成方法、计算机设备和存储介质。所述方法包括：获取歌词中各个发声音素的原始发声信息；由训练好的歌声特征确定模型根据歌词和多种预设情感类型之间的相似度，确定歌词的歌唱情感特征，基于歌唱情感特征和各发声音素的原始发声信息，确定各发声音素对应的音频帧的音高调整结果和声音强度，并基于各音频帧的音高调整结果和声音强度输出歌声频谱特征；根据歌声特征确定模型输出的歌声频谱特征，生成歌词对应的合成歌声。本方案中，通过结合歌词的歌唱情感特征调整音高和声音强度，使歌声特征可以随歌词的歌唱情感特征的变化而出现音高和声音强度的轻重强弱变化，有效提升合成歌声与歌曲内容的适配性。有效提升合成歌声与歌曲内容的适配性。有效提升合成歌声与歌曲内容的适配性。

全部详细技术资料下载

【技术实现步骤摘要】
歌声合成方法、计算机设备和计算机可读存储介质

[0001]本申请涉及歌声合成
，特别是涉及一种歌声合成方法、计算机设备和计算机可读存储介质。

技术介绍

[0002]随着计算机技术的发展，歌声合成技术逐渐得到普及，其中，歌声合成是指通过计算机等设备模拟输出歌声。
[0003]在相关技术中，可以根据歌曲乐谱确定最终合成的歌声的旋律，也即在基于歌词得到合成歌声包含的演唱内容后，基于歌曲的乐谱对合成歌声整体的旋律和演唱内容的演唱方式进行控制。然而，上述方式得到的合成歌声与歌曲内容的适配性仍然有待提升。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够提升合成歌声与歌曲内容适配性的歌声合成方法、计算机设备和计算机可读存储介质。
[0005]第一方面，本申请提供了一种歌声合成方法。所述方法包括：
[0006]获取歌词中各个发声音素的原始发声信息；
[0007]由训练好的歌声特征确定模型根据所述歌词和多种预设情感类型之间的相似度，确定所述歌词的歌唱情感特征，基于所...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法，其特征在于，所述方法包括：获取歌词中各个发声音素的原始发声信息；由训练好的歌声特征确定模型根据所述歌词和多种预设情感类型之间的相似度，确定所述歌词的歌唱情感特征，基于所述歌唱情感特征和所述各个发声音素的原始发声信息，确定所述各个发声音素对应的音频帧的音高调整结果和声音强度，并基于各所述音频帧的音高调整结果和声音强度输出歌声频谱特征；根据所述歌声特征确定模型输出的所述歌声频谱特征，生成所述歌词对应的合成歌声。2.根据权利要求1所述的方法，其特征在于，所述根据所述歌词和多种预设情感类型之间的相似度，确定所述歌词的歌唱情感特征，包括：对所述歌词进行编码，得到所述歌词的歌词文本编码；获取多种情感类型各自对应的情感类型编码，并根据所述歌词文本编码与各情感类型的情感类型编码之间的相似度，确定各情感类型的情感类型编码的权重；根据各情感类型的情感类型编码以及各情感类型的情感类型编码的权重，确定所述歌词的目标编码，并将所述目标编码确定为所述歌词的歌唱情感特征。3.根据权利要求1所述的方法，其特征在于，所述各个发声音素的原始发声信息包括所述各个发声音素对应的音频帧的原始发声信息，所述歌声特征确定模型包括基频预测模块；基于所述歌唱情感特征和所述各个发声音素的原始发声信息，确定所述各个发声音素对应的音频帧的音高调整结果，包括：将所述歌唱情感特征和多个所述音频帧的原始发声信息输入到所述基频预测模块，由所述基频预测模块基于所述歌唱情感特征确定多个所述音频帧的基频变化特征，并根据所述基频变化特征对多个所述音频帧的原始发声信息中的音高进行调整，得到所述各个发声音素对应的音频帧的音高调整结果。4.根据权利要求1所述的方法，其特征在于，所述各个发声音素的原始发声信息包括所述各个发声音素对应的音频帧的原始发声信息，所述歌声特征确定模型包括声音能量预测模块；基于所述歌唱情感特征和所述各个发声音素的原始发声信息，确定所述各个发声音素对应的音频帧的声音强度，包括：将所述歌唱情感特征和多个所述音频帧的原始发声信息输入到所述声音能量预测模块，由所述声音能量预测模块基于所述歌唱情感特征和多个所述音频帧的原始发声信息，确定多个所述音频帧的目标声音能量，作为所述多个音频帧的声音强度。5.根据权利要求1所述的方法，其特征在于，所述获取歌词各个发声音素的原始...

【专利技术属性】
技术研发人员：陈梦，刘若澜，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人