歌曲生成方法和装置制造方法及图纸

技术编号:24173565 阅读:55 留言:0更新日期:2020-05-16 03:47
本公开涉及音频数据处理技术领域。本公开的实施例公开了歌曲生成方法和装置。该方法包括:从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号;将第一语种的歌词翻译为第二语种的歌词;将第一伴奏信号和第二语种的歌词输入已训练的伴奏生成模型,得到第二伴奏信号;将第一歌声信号和第二语种的歌词输入已训练的歌声生成模型,生成第二歌声信号;将第二伴奏信号和第二歌声信号合成为第二语种的歌曲音频。该方法实现了不同语种歌曲的自动生成,降低了多语种歌曲的制作成本。

Song generation method and device

【技术实现步骤摘要】
歌曲生成方法和装置
本公开的实施例涉及计算机
,具体涉及音频数据处理
,尤其涉及歌曲生成方法和装置。
技术介绍
歌曲是将人声与音乐相结合形成的有声产品。歌曲的制作方法一般是录制歌唱者的歌声,然后将歌声与伴奏合成。针对已有的歌曲,将歌词翻译为其他语言版本可以提高歌曲的流传度,丰富音乐作品的形式。目前的不同语言版本的歌曲制作方法需要歌唱者使用其他语种的语言对原重新演唱。这种方式成本较高,不利于不同语言版本的歌曲的批量生成。
技术实现思路
本公开的实施例提出了歌曲生成方法和装置、电子设备和计算机可读介质。第一方面,本公开的实施例提供了一种歌曲生成方法,包括:从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号;将第一语种的歌词翻译为第二语种的歌词;将第一伴奏信号和第二语种的歌词输入已训练的伴奏生成模型,得到第二伴奏信号;将第一歌声信号和第二语种的歌词输入已训练的歌声生成模型,生成第二歌声信号;将第二伴奏信号和第二歌声信号合成为第二语种的歌曲音频。在一些实施例中,上述方法还包括:基于第一样本歌曲音频集合训练伴奏生成模型,包括:获取第一样本歌曲音频集合中的第一样本歌曲音频的对应语种的歌词;从第一样本歌曲音频中提取伴奏信号,将第一样本歌曲音频的伴奏信号和第一样本歌曲的对应语种的歌词输入待训练的伴奏生成模型,得到第一样本歌曲音频的伴奏信号的预测结果;基于待训练的伴奏生成模型对第一样本歌曲音频的伴奏信号的预测结果与从对应的第一样本歌曲音频中提取出的伴奏信号之间的差异迭代调整伴奏生成模型的参数。在一些实施例中,上述伴奏生成模型包括第一音乐编码器、第一文本编码器、第一频谱解码器以及第一声码器;第一音乐编码器对输入伴奏生成模型的伴奏信号进行编码;第一文本编码器对输入伴奏生成模型的歌词进行文本编码;第一频谱解码器基于第一音乐编码器和第一文本编码器的编码结果进行解码,得到对应的频谱信号;第一声码器基于第一频谱解码器解码得到的频谱信号生成歌曲的伴奏信号。在一些实施例中,上述方法还包括:基于第二样本歌曲音频集合训练歌声生成模型,其中,歌声生成模型包括说话人声纹编码器以及歌声生成子模型;基于第二样本歌曲音频集合训练歌声生成模型,包括:基于说话人声纹识别任务对说话人声纹编码器进行训练;获取第二样本歌曲音频集合中的第二样本歌曲音频的对应语种的歌词;从第二样本歌曲音频中提取出歌声信号,利用训练完成的说话人声纹编码器从第二样本歌曲音频的歌声信号中提取出第二样本歌曲音频的说话人声纹特征;将第二样本歌曲音频的歌声信号和第二样本歌曲音频的对应语种的歌词、以及第二样本歌曲音频的说话人声纹特征输入待训练的歌声生成子模型,得到第二样本歌曲音频的歌声信号的预测结果;基于待训练的歌声生成模型对第二样本歌曲音频的歌声信号的预测结果与从对应的第二样本歌曲音频中提取出的歌声信号之间的差异迭代调整歌声生成子模型的参数。在一些实施例中,上述歌声生成子模型包括:第二音乐编码器、第二文本编码器、第二频谱解码器以及第二声码器;第二音乐编码器对输入歌声生成子模型的歌声信号进行编码;第二文本编码器对输入歌声生成子模型的歌词进行文本编码;第二频谱解码器基于说话人声纹编码器、第二音乐编码器和第二文本编码器的编码结果进行解码,得到对应的频谱信号;第二声码器基于第二频谱解码器解码得到的频谱信号生成歌曲的歌声信号。第二方面,本公开的实施例提供了一种歌曲生成装置,包括:提取单元,被配置为从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号;翻译单元,被配置为将第一语种的歌词翻译为第二语种的歌词;第一生成单元,被配置为将第一伴奏信号和第二语种的歌词输入已训练的伴奏生成模型,得到第二伴奏信号;第二生成单元,被配置为将第一歌声信号和第二语种的歌词输入已训练的歌声生成模型,生成第二歌声信号;转换单元,被配置为将第二伴奏信号和第二歌声信号合成为第二语种的歌曲音频。在一些实施例中,上述装置还包括:第一训练单元,被配置为基于第一样本歌曲音频集合,按照如下方式训练伴奏生成模型:获取第一样本歌曲音频集合中的第一样本歌曲音频的对应语种的歌词;从第一样本歌曲音频中提取伴奏信号,将第一样本歌曲音频的伴奏信号和第一样本歌曲的对应语种的歌词输入待训练的伴奏生成模型,得到第一样本歌曲音频的伴奏信号的预测结果;基于待训练的伴奏生成模型对第一样本歌曲音频的伴奏信号的预测结果与从对应的第一样本歌曲音频中提取出的伴奏信号之间的差异迭代调整伴奏生成模型的参数。在一些实施例中,上述伴奏生成模型包括第一音乐编码器、第一文本编码器、第一频谱解码器以及第一声码器;第一音乐编码器对输入伴奏生成模型的伴奏信号进行编码;第一文本编码器对输入伴奏生成模型的歌词进行文本编码;第一频谱解码器基于第一音乐编码器和第一文本编码器的编码结果进行解码,得到对应的频谱信号;第一声码器基于第一频谱解码器解码得到的频谱信号生成歌曲的伴奏信号。在一些实施例中,上述装置还包括:第二训练单元,被配置为基于第二样本歌曲音频集合训练歌声生成模型,其中,歌声生成模型包括说话人声纹编码器以及歌声生成子模型;第二训练单元被配置为按照如下方式训练歌声生成模型:基于说话人声纹识别任务对说话人声纹编码器进行训练;获取第二样本歌曲音频集合中的第二样本歌曲音频的对应语种的歌词;从第二样本歌曲音频中提取出歌声信号,利用训练完成的说话人声纹编码器从所述第二样本歌曲音频的歌声信号中提取出第二样本歌曲音频的说话人声纹特征;将第二样本歌曲音频的歌声信号和第二样本歌曲音频的对应语种的歌词、以及第二样本歌曲音频的说话人声纹特征输入待训练的歌声生成子模型,得到第二样本歌曲音频的歌声信号的预测结果;基于待训练的歌声生成模型对第二样本歌曲音频的歌声信号的预测结果与从对应的第二样本歌曲音频中提取出的歌声信号之间的差异迭代调整歌声生成子模型的参数。在一些实施例中,上述歌声生成子模型包括:第二音乐编码器、第二文本编码器、第二频谱解码器以及第二声码器;第二音乐编码器对输入歌声生成子模型的歌声信号进行编码;第二文本编码器对输入歌声生成子模型的歌词进行文本编码;第二频谱解码器基于说话人声纹编码器、第二音乐编码器和第二文本编码器的编码结果进行解码,得到对应的频谱信号;第二声码器基于第二频谱解码器解码得到的频谱信号生成歌曲的歌声信号。第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的歌曲生成方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的歌曲生成方法。本公开的上述实施例的歌曲生成方法和装置,通过从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号,将第一语种的歌词翻译为第二语种的歌词,将第一伴奏信号和第二语种的歌词输入已训练的伴奏生成模型,得到第二伴奏信号,将第一歌声本文档来自技高网...

【技术保护点】
1.一种歌曲生成方法,包括:/n从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号;/n将所述第一语种的歌词翻译为第二语种的歌词;/n将所述第一伴奏信号和所述第二语种的歌词输入已训练的伴奏生成模型,得到第二伴奏信号;/n将所述第一歌声信号和所述第二语种的歌词输入已训练的歌声生成模型,生成第二歌声信号;/n将所述第二伴奏信号和所述第二歌声信号合成为第二语种的歌曲音频。/n

【技术特征摘要】
1.一种歌曲生成方法,包括:
从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号;
将所述第一语种的歌词翻译为第二语种的歌词;
将所述第一伴奏信号和所述第二语种的歌词输入已训练的伴奏生成模型,得到第二伴奏信号;
将所述第一歌声信号和所述第二语种的歌词输入已训练的歌声生成模型,生成第二歌声信号;
将所述第二伴奏信号和所述第二歌声信号合成为第二语种的歌曲音频。


2.根据权利要求1所述的方法,其中,所述方法还包括:基于第一样本歌曲音频集合训练伴奏生成模型,包括:
获取所述第一样本歌曲音频集合中的第一样本歌曲音频的对应语种的歌词;
从所述第一样本歌曲音频中提取伴奏信号,将所述第一样本歌曲音频的伴奏信号和所述第一样本歌曲的对应语种的歌词输入待训练的伴奏生成模型,得到所述第一样本歌曲音频的伴奏信号的预测结果;
基于所述待训练的伴奏生成模型对第一样本歌曲音频的伴奏信号的预测结果与从对应的第一样本歌曲音频中提取出的伴奏信号之间的差异迭代调整所述伴奏生成模型的参数。


3.根据权利要求1或2所述的方法,其中,所述伴奏生成模型包括第一音乐编码器、第一文本编码器、第一频谱解码器以及第一声码器;
所述第一音乐编码器对输入所述伴奏生成模型的伴奏信号进行编码;
所述第一文本编码器对输入所述伴奏生成模型的歌词进行文本编码;
所述第一频谱解码器基于所述第一音乐编码器和所述第一文本编码器的编码结果进行解码,得到对应的频谱信号;
所述第一声码器基于所述第一频谱解码器解码得到的频谱信号生成歌曲的伴奏信号。


4.根据权利要求1或2所述的方法,其中,所述方法还包括:
基于第二样本歌曲音频集合训练歌声生成模型,其中,所述歌声生成模型包括说话人声纹编码器以及歌声生成子模型;
所述基于第二样本歌曲音频集合训练歌声生成模型,包括:
基于说话人声纹识别任务对所述说话人声纹编码器进行训练;
获取所述第二样本歌曲音频集合中的第二样本歌曲音频的对应语种的歌词;
从所述第二样本歌曲音频中提取出歌声信号,利用训练完成的说话人声纹编码器从所述第二样本歌曲音频的歌声信号中提取出第二样本歌曲音频的说话人声纹特征;
将所述第二样本歌曲音频的歌声信号和所述第二样本歌曲音频的对应语种的歌词、以及所述第二样本歌曲音频的说话人声纹特征输入待训练的歌声生成子模型,得到所述第二样本歌曲音频的歌声信号的预测结果;
基于所述待训练的歌声生成模型对第二样本歌曲音频的歌声信号的预测结果与从对应的第二样本歌曲音频中提取出的歌声信号之间的差异迭代调整所述歌声生成子模型的参数。


5.根据权利要求4所述的方法,其中,所述歌声生成子模型包括:第二音乐编码器、第二文本编码器、第二频谱解码器以及第二声码器;
所述第二音乐编码器对输入所述歌声生成子模型的歌声信号进行编码;
所述第二文本编码器对输入所述歌声生成子模型的歌词进行文本编码;
所述第二频谱解码器基于所述说话人声纹编码器、所述第二音乐编码器和所述第二文本编码器的编码结果进行解码,得到对应的频谱信号;
所述第二声码器基于所述第二频谱解码器解码得到的频谱信号生成歌曲的歌声信号。


6.一种歌曲生成装置,包括:
提取单元,被配置为从第一语种的歌曲音频中提取出第一伴奏信号、第一语种的歌词以及第一歌声信号;
翻译单元,被配置为将所述第一语种的歌词翻译为第二语种的歌词;
第一生成单元,被配置为将所述第一伴奏信号和所述第...

【专利技术属性】
技术研发人员:熊皓何中军李芝吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1