A song generation method based on neural network includes the following steps: acquiring the lyric text and determining the singer; extracting phonemes from the Lyric text; predicting the duration and fundamental frequency of each phoneme according to the phoneme prediction model, in which the phoneme prediction model is a neural network model trained according to the set of audio file samples corresponding to the singer. The target song audio is obtained by combining the phonemes, duration and fundamental frequency. The application also proposes a song generation system based on neural network corresponding to the above method.
【技术实现步骤摘要】
一种基于神经网络的歌曲生成方法和系统
本专利技术涉及神经网络领域,尤其涉及一种基于神经网络的歌曲生成方法和系统。
技术介绍
游戏开发和影视领域中,对主题区或片尾曲等歌曲的需求与日俱增,日渐形一条成熟的产业链。对于游戏开发和影视的公司而言,歌曲的成本大部分来自于知名歌手的演唱费用。由于大部分中小企业难以负担高额的演唱费用,退而求其次,选择知名度不高的歌手进行演唱,而专业水平则得不到保证。因此,如何节约游戏开发和影视领域中主题曲或片尾曲等歌曲的制作成本成为了游戏开发和影视的公司需要面对的问题。
技术实现思路
本申请的目的是解决现有技术的不足,提供一种基于神经网络的歌曲生成方法和系统,能够获得降低歌曲制作成本和缩短歌曲制作周期的效果。为了实现上述目的,本申请采用以下的技术方案。首先,本申请提出一种基于神经网络的歌曲生成方法,适用于根据歌词自动生成歌曲。该方法包括以下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。进一步地,在本申请的上述方法中,所述步骤S100还包括以下子步骤:S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;S102)从所述歌曲生成页面获取歌词文本;S103)确定所述歌曲生成页面中被选中的演唱者。进一步地,在本申请的上述方法中,所述步骤S200还包括以下子步骤:S201)根据标准音素字典生成 ...
【技术保护点】
1.一种基于神经网路的歌曲生成方法,其特征在于,包括以下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。
【技术特征摘要】
1.一种基于神经网路的歌曲生成方法,其特征在于,包括以下步骤:S100)获取歌词文本并确定演唱者;S200)从所述歌词文本中提取音素;S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。2.根据权利要求1所述的方法,其特征在于,所述步骤S100还包括以下子步骤:S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;S102)从所述歌曲生成页面获取歌词文本;S103)确定所述歌曲生成页面中被选中的演唱者。3.根据权利要求1所述的方法,其特征在于,所述步骤S200还包括以下子步骤:S201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;S202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。4.根据权利要求1所述的方法,其特征在于,所述步骤S300还包括以下子步骤:S301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;S302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;S303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;S304)根据所述训练样本集合训练所述音素预测模型;S305)根据训练得到的所述音素预测模...
【专利技术属性】
技术研发人员:周湘君,杜庆焜,陈海荣,张李京,
申请(专利权)人:武汉西山艺创文化有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。