歌声合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：30141880 阅读：27 留言：0更新日期：2021-09-23 15:06

本发明专利技术公开了一种歌声合成方法、装置、计算机设备及存储介质，其中方法包括：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。通过上述方式，本发明专利技术能够使用图像优化模型对声学模型生成的梅尔频谱进行细节上的优化，然后再由声码器根据该优化后的梅尔频谱进行歌声合成，使得合成的歌声效果更好。使得合成的歌声效果更好。使得合成的歌声效果更好。

全部详细技术资料下载

【技术实现步骤摘要】
歌声合成方法、装置、计算机设备及存储介质

[0001]本申请涉及语音合成
，特别是涉及一种歌声合成方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展，语音交互能力越来越受到重视，能听、会说、会唱成为必备技能。越来越多的应用软件、智能设备开始采用语音合成技术来模拟人的说话内容，例如采用语音合成技术模拟人说话的内容以得到“学舌”的目的，或者采用语音合成技术来模拟人唱歌等与普通说话场景不同的语音。
[0003]现有的歌声合成模型通常包括声学模型和声码器两部分，其中，声学部分用于将文本映射成时间对齐的声学特征，声码器用于讲台声学特征转换问波形，目前，在声学模型中，有研究表明，使用梅尔频谱来作为声学模型与声码器之间的声学特征是合理有效的，近年来的成功的歌声合成模型也几乎都用到了梅尔频谱来衔接声学模型与声码器这两部分，因此，若果梅尔频谱的质量越高，声码器最终合成的歌声的质量越高，但是，使用高采样率的音频来作为训练对象生成质量更高的梅尔频谱会导致声学模型的搭建难度大增，因此，如何采用合理的方...

【技术保护点】

【技术特征摘要】
1.一种歌声合成方法，其特征在于，包括：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；利用预先训练好的图像优化模型对所述梅尔频谱进行优化，所述图像优化yi模型根据所述声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；将优化后的所述梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。2.根据权利要求1所述的歌声合成方法，其特征在于，所述从待转换为歌声音频的MIDI文件中提取歌声特征并输入至预先训练好的声学模型，得到梅尔频谱，包括：获取用户输入的待转换为歌声音频的MIDI文件；从所述MIDI文件中提取得到音素特征、音长特征和音高特征；对所述音素特征、所述音长特征和所述音高特征进行拼接，得到输入特征；将所述输入特征输入至所述训练好的声学模型，得到所述梅尔频谱。3.根据权利要求1所述的歌声合成方法，其特征在于，所述得到梅尔频谱之后，还包括：分析所述梅尔频谱以得到每一帧梅尔频谱对应的基本频率和发声特征；将优化后的所述梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件，包括：将所述优化后的梅尔频谱与优化前的所述梅尔频谱逐帧对应，以获知每帧所述优化后的梅尔频谱对应的基本频率和发声特征；将所述优化后的梅尔频谱输入至所述声码器，当所述声码器将当前帧的梅尔频谱转换为音频后，将所述当前帧对应的所述基本频率添加至所述音频中；判断所述音频的当前发声特征与所述当前帧对应的所述发声特征是否一致；若是，则保存所述音频；若否，则根据所述发声特征调整所述音频的当前发声特征再保存；根据所有保存的音频组合成所述歌声音频文件。4.根据权利要求1所述的歌声合成方法，其特征在于，还包括预先训练所述声学模型，所...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人