一种基于神经网络的歌曲生成方法和系统技术方案

技术编号:21202566 阅读:33 留言:0更新日期:2019-05-25 02:01
一种基于神经网络的歌曲生成方法,包括以下步骤:获取歌词文本并确定演唱者;从所述歌词文本中提取音素;根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;将所述音素、持续时间和基频结合,得到目标歌曲音频。本申请还提出一种与上述方法相应的基于神经网络的歌曲生成系统。

A Method and System of Song Generation Based on Neural Network

A song generation method based on neural network includes the following steps: acquiring the lyric text and determining the singer; extracting phonemes from the Lyric text; predicting the duration and fundamental frequency of each phoneme according to the phoneme prediction model, in which the phoneme prediction model is a neural network model trained according to the set of audio file samples corresponding to the singer. The target song audio is obtained by combining the phonemes, duration and fundamental frequency. The application also proposes a song generation system based on neural network corresponding to the above method.

【技术实现步骤摘要】
一种基于神经网络的歌曲生成方法和系统
本专利技术涉及神经网络领域,尤其涉及一种基于神经网络的歌曲生成方法和系统。
技术介绍
游戏开发和影视领域中,对主题区或片尾曲等歌曲的需求与日俱增,日渐形一条成熟的产业链。对于游戏开发和影视的公司而言,歌曲的成本大部分来自于知名歌手的演唱费用。由于大部分中小企业难以负担高额的演唱费用,退而求其次,选择知名度不高的歌手进行演唱,而专业水平则得不到保证。因此,如何节约游戏开发和影视领域中主题曲或片尾曲等歌曲的制作成本成为了游戏开发和影视的公司需要面对的问题。
技术实现思路
本申请的目的是解决现有技术的不足,提供一种基于神经网络的歌曲生成方法和系统,能够获得降低歌曲制作成本和缩短歌曲制作周期的效果。为了实现上述目的,本申请采用以下的技术方案。首先,本申请提出一种基于神经网络的歌曲生成方法,适用于根据歌词自动生成歌曲。该方法包括以下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。进一步地,在本申请的上述方法中,所述步骤S100还包括以下子步骤:S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;S102)从所述歌曲生成页面获取歌词文本;S103)确定所述歌曲生成页面中被选中的演唱者。进一步地,在本申请的上述方法中,所述步骤S200还包括以下子步骤:S201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;S202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。进一步地,在本申请的上述方法中,所述步骤S300还包括以下子步骤:S301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;S302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;S303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;S304)根据所述训练样本集合训练所述音素预测模型;S305)根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。进一步地,在本申请的上述方法中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。进一步地,在本申请的上述方法中,所述步骤S400还包括以下子步骤:S401)获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;S402)将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。进一步地,在本申请的上述方法中,还包括步骤:S500)获取伴奏音频;S600)将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。进一步地,在本申请的上述方法中,所述音素预测模型是基于Tensorflow和Kerass学习框架建立。其次,本申请还公开了一种基于神经网络的歌曲生成系统,适用于根据歌词自动生成歌曲。该系统包括以下模块:导入模块,用于获取歌词文本并确定演唱者;音素提取模块,用于从所述歌词文本中提取音素;音素预测模块,用于据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;结合模块,用于将所述音素、持续时间和基频结合,得到目标歌曲音频。进一步地,在本申请的上述系统中,所述导入模块还包括以下子模块:页面获取模块,用于获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;歌词问问获取模块,用于从所述歌曲生成页面获取歌词文本;演唱者确定模块,用于确定所述歌曲生成页面中被选中的演唱者。进一步地,在本申请的上述系统中,所述音素提取模块还包括以下子模块:语素音素转换模型训练模块,用于根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;音素转换模块,用于使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。进一步地,在本申请的上述系统中,所述音素预测模块还包括以下子模块:音频文件样本获取模块,用于从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;音频剪辑获取模块,用于从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;训练样本集合获取模块,用于根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;音素预测模型训练模块,用于根据所述训练样本集合训练所述音素预测模型;持续时间和基频预测模块,用于根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。进一步地,在本申请的上述系统中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。进一步地,在本申请的上述系统中,所述结合模块还包括以下子模块:语音合成模型获取模块,用于获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;目标歌曲音频输出模块,用于将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。进一步地,在本申请的上述系统中,还包括:伴奏音频获取模块,用于获取伴奏音频;合成模块,用于将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。进一步地,在本申请的上述系统中,所述音素预测模型是基于Tensorflow和Kerass学习框架建立。最后,本申请还提出一种计算机可读存储介质,其上存储有计算机指令。上述指令被处理器执行时,执行如下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。进一步地,在处理器执行上述指令时,所述步骤S100还包括以下子步骤:S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;S102)从所述歌曲生成页面获取歌词文本;S103)确定所述歌曲生成页面中被选中的演唱者。进一步地,在处理器执行上述指令时,所述步骤S200还包括以下子步骤:S201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;S202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。进一步地,在处理器执行上述指令时,所述步骤S300还包括以下子步骤:S301)从所述演唱者对应本文档来自技高网...

【技术保护点】
1.一种基于神经网路的歌曲生成方法,其特征在于,包括以下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。

【技术特征摘要】
1.一种基于神经网路的歌曲生成方法,其特征在于,包括以下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。2.根据权利要求1所述的方法,其特征在于,所述步骤S100还包括以下子步骤:S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;S102)从所述歌曲生成页面获取歌词文本;S103)确定所述歌曲生成页面中被选中的演唱者。3.根据权利要求1所述的方法,其特征在于,所述步骤S200还包括以下子步骤:S201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;S202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。4.根据权利要求1所述的方法,其特征在于,所述步骤S300还包括以下子步骤:S301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;S302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;S303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;S304)根据所述训练样本集合训练所述音素预测模型;S305)根据训练得到的所述音素预测模...

【专利技术属性】
技术研发人员:周湘君杜庆焜陈海荣张李京
申请(专利权)人:武汉西山艺创文化有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1