歌曲合成方法及模型训练方法、装置、设备与存储介质制造方法及图纸

技术编号:27774292 阅读:46 留言:0更新日期:2021-03-23 13:05
本申请公开了一种歌曲合成方法及模型训练方法、装置、设备与存储介质,涉及深度学习和智能语音等人工智能技术领域。具体实现方案为:基于待合成歌曲的乐谱,获取所述待合成歌曲的音素序列和音符序列;根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息;根据所述待合成歌曲的声学特征信息,采用预先训练的声码器,合成所述歌曲。本申请由于采用了预先训练的声学模型和声码器,不仅能够有效地保证合成的歌曲的准确性,不会出现“跑调”、“拖拍”等问题,同时歌曲合成过程非常地简单、方便,不需要专业人士参与,便能够实现,歌曲合成的效率非常高。

【技术实现步骤摘要】
歌曲合成方法及模型训练方法、装置、设备与存储介质
本申请涉及计算机
,具体涉及深度学习和智能语音等人工智能
,尤其涉及一种歌曲合成方法及模型训练方法、装置、设备与存储介质。
技术介绍
随着语音合成技术的发展,歌曲合成作为语音合成中重要的分支之一,也越来越受到市场和研究者的关注。歌曲合成相比目前较为成熟的说话合成技术,主要有两个难点:一、歌曲合成因为乐谱的规范,对合成音频的音高、节拍有明确的要求,不能出现“跑调”、“拖拍”等问题。二、一般歌曲合成对歌曲数据的标注有较高要求,标注难度更大。因此限制了歌曲合成技术数据获取的难度和在产品上落地。
技术实现思路
本申请提供了一种歌曲合成方法及模型训练方法、装置、设备与存储介质。根据本申请的一方面,提供了一种歌曲合成方法,其中,所述方法包括:基于待合成歌曲的乐谱,获取所述待合成歌曲的音素序列和音符序列;根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息;根据所述待合成歌曲的声学特征信息本文档来自技高网...

【技术保护点】
1.一种歌曲合成方法,其中,所述方法包括:/n基于待合成歌曲的乐谱,获取所述待合成歌曲的音素序列和音符序列;/n根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息;/n根据所述待合成歌曲的声学特征信息,采用预先训练的声码器,合成所述歌曲。/n

【技术特征摘要】
1.一种歌曲合成方法,其中,所述方法包括:
基于待合成歌曲的乐谱,获取所述待合成歌曲的音素序列和音符序列;
根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息;
根据所述待合成歌曲的声学特征信息,采用预先训练的声码器,合成所述歌曲。


2.根据权利要求1所述的方法,其中,根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息,包括:
将所述音素序列和所述音符序列,输入至预先训练的所述声学模型中;
获取所述声学模型根据所述音素序列和所述音符序列,基于对齐准则生成的所述待合成歌曲的声学特征信息。


3.根据权利要求1所述的方法,其中,根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息,包括:
根据所述音素序列和所述音符序列,基于对齐准则,构建音素音符组合特征;
基于所述音素音符组合特征和预先训练的所述声学模型,生成所述待合成歌曲的声学特征信息。


4.根据权利要求3所述的方法,其中,根据所述音素序列和所述音符序列,基于对齐准则,构建音素音符组合特征,包括:
基于对齐准则,建立所述音素序列和所述音符序列的对应关系;
基于所述对应关系、所述音素序列和所述音符序列,构建所述音素音符组合特征。


5.一种声学模型的训练方法,其中,所述方法包括:
基于数个训练歌曲的音频,采集数条训练数据,各条所述训练数据中包括对应的所述训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息;
根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息,基于对齐准则,对歌曲合成中的声学模型进行训练。


6.根据权利要求5所述的方法,其中,根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息,基于对齐准则,对歌曲合成中的声学模型进行训练,包括:
对于各所述训练数据,将所述训练数据中的所述训练歌曲的训练音素序列、所述训练歌曲的训练音符序列输入至所述声学模型中;
获取所述声学模型根据所述训练音素序列和所述训练音符序列,基于对齐准则生成的所述训练歌曲的预测声学特征信息;
基于所述预测声学特征信息和所述目标声学特征信息,构建第一损失函数;
检测所述第一损失函数是否收敛;
若未收敛,调整所述声学模型的参数,使得所述第一损失函数趋于收敛。


7.根据权利要求6所述的方法,其中,获取所述声学模型根据所述训练音素序列和所述训练音符序列,基于对齐准则生成的所述训练歌曲的预测声学特征信息,包括:
获取所述声学模型的编码器中的第一编码单元对所述训练音素序列进行编码的第一编码特征信息;
获取所述声学模型的编码器中的第一注意力机制单元,基于对齐准则将所述第一编码特征信息向所述预测声学特征信息对齐,得到的音素对齐特征;
获取所述声学模型的编码器中的第二编码单元对所述训练音符序列进行编码的第二编码特征信息;
获取所述声学模型的编码器中的第二注意力机制单元,基于对齐准则将所述第二编码特征信息向所述预测声学特征信息对齐,得到的音符对齐特征;
获取所述声学模型的解码器,基于所述音素对齐特征和所述音符对齐特征的组合特征进行解码得到的所述预测声学特征信息。


8.根据权利要求5所述的方法,其中,根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息,基于对齐准则,对歌曲合成中的声学模型进行训练,包括:
对于各所述训练数据,根据所述训练音素序列和所述训练音符序列,基于对齐准则,构建对应的训练音素音符组合特征;
将所述训练音素音符组合特征输入至所述声学模型中;
获取所述声学模型根据所述训练音素音符组合特征,生成的所述训练歌曲的预测声学特征信息;
基于所述预测声学特征信息和所述目标声学特征信息,构建第二损失函数;
检测所述第二损失函数是否收敛;
若未收敛,调整所述声学模型的参数,使得所述第二损失函数趋于收敛。


9.一种歌曲合成装置,其中,所述装置包括:
获取模块,用于基于待合成歌曲的乐谱,获取所述待合成歌曲的音素序列和音符序列;
生成模块,用于根据所述音素序列和所述音符序列,基于对齐准则,采用预先训练的声学模型,生成所述待合成歌曲的声学特征信息;
合...

【专利技术属性】
技术研发人员:左晨孙子涵孙涛孙晨曦
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1