一种音乐数据的生成方法、装置、设备以及存储介质制造方法及图纸

技术编号:30311916 阅读:21 留言:0更新日期:2021-10-09 22:53
本公开关于一种音乐数据的生成方法、装置、设备以及存储介质,涉及人工智能领域。本公开实施例至少解决相关技术中,生成说唱音乐的技术门槛较高,以及生成的说唱音乐效果不佳的问题。该方法包括:获取原始视频数据,以及预设的资源模板;资源模板包括每个伴奏片段的字符串数量、第一时长以及重音级别;根据原始视频数据的资源特征,以及每个伴奏片段的字符串数量,生成歌词,并基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别,以及预设的音色特征,生成具有音色特征的语音数据;语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串;合并语音数据以及伴奏数据,以生成原始视频数据对应的音乐数据。以生成原始视频数据对应的音乐数据。以生成原始视频数据对应的音乐数据。

【技术实现步骤摘要】
一种音乐数据的生成方法、装置、设备以及存储介质


[0001]本公开涉及人工智能领域,尤其涉及一种音乐数据的生成方法、装置、设备以及存储介质。

技术介绍

[0002]说唱音乐利用大量押韵技巧并加上动感的音乐节拍,往往更能够给人比较震撼的感受。相关技术中,通常将人工智能(Artificial Intelligence,AI)技术、语音合成技术应用于说唱音乐的创作。具体的,说唱音乐的创作模块用于根据用户输入的说唱歌词,为说唱歌词匹配合适的背景音乐;进一步的,该创作模块还将说唱歌词变换为语音谱,并将变换得到语音谱贴合到该背景音乐中,以生成说唱音乐。
[0003]但是在上述说唱音乐的创作过程中,需要用户创作说唱歌词并输入到创作模块中,就需要用户具备一定的说唱基础,对于不具备说唱基础的用户,仍然无法使用该创作模块。同时,由于上述创作模块在生成说唱音乐的过程中,直接将说唱歌词的语音谱贴合到背景音乐中,并不能很好的将歌词与背景音乐的节奏进行贴合,生成的说唱音乐较为机械,无法满足用户的需求。

技术实现思路

[0004]本公开提供一种音乐数据的生成方法、装置、设备以及存储介质,以至少解决相关技术中,生成说唱音乐的技术门槛较高,以及生成的说唱音乐效果不佳的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音乐数据的生成方法,包括:获取原始视频数据,以及预设的资源模板;资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别;第一时长为字符串在伴奏数据中占用的帧数,重音级别为字符串在伴奏数据中的重音级别;根据原始视频数据的资源特征,以及伴奏数据中每个伴奏片段的字符串数量,生成与原始视频的资源特征对应的歌词;歌词中的歌词片段与伴奏数据中的伴奏片段一一对应,且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等;基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别,以及预设的音色特征,生成具有音色特征的语音数据;语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串;合并语音数据以及伴奏数据,以生成原始视频数据对应的音乐数据。
[0006]可选的,上述“基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别,以及预设的音色特征,生成具有音色特征的语音数据”,包括:确定歌词中每个字符串所包括的音素以及每个音素的音调;确定每个音素在伴奏数据中的第二时长,以及每个音素的第一能量值;每个字符串中所有音素的第二时长之和为每个字符串的第一时长;每个音素的第一能量值为每个音素在伴奏数据中的能量值,且每个音素的第一能量值与每个音素所在的字符串的重音级别正相关;
[0007]根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以
及音色特征,生成语音数据。
[0008]可选的,上述“确定每个音素在伴奏数据中的第二时长,以及每个音素的第一能量值”,包括:对于第一字符串,确定第一字符串中音素的第三时长,以及第一字符串中音素的第二能量值;第一字符串为歌词中任意的一个字符串;每个音素的第三时长为每个音素在歌词的字符串中占用的帧数;每个音素的第二能量值为每个音素在歌词的字符串中的能量值;根据第一字符串中音素的第三时长,以及第一字符串的第一时长,确定第一字符串中音素的第二时长;基于第一字符串中音素的第二能量值,以及第一字符串的重音级别,确定第一字符串中音素的第一能量值。
[0009]可选的,上述“根据第一字符串中音素的第三时长,以及第一字符串的第一时长,确定第一字符串中音素的第二时长”,包括:确定第一字符串中音素的第三时长之和,与第一字符串的第一时长的比值,为第一字符串的调整比例;基于调整比例,分别调整第一字符串中音素的第三时长,以得到第一字符串中音素的第二时长。
[0010]可选的,上述“根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征,生成语音数据”,包括:对于第一音素,根据第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征,生成与第一音素对应的帧特征组;第一音素为歌词中的任意一个音素;每个音素对应的帧特征组包括多个帧特征,且多个帧特征的数量对应于每个音素的第二时长;每个音素对应的每个帧特征均包括每个音素、每个音素的音调、每个音素的第一能量值以及音色特征;合并歌词中所有音素分别对应的帧特征组,以得到歌词对应的语音谱参数,并将语音谱参数转换为语音数据。
[0011]可选的,上述“根据第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及音色特征,生成与第一音素对应的帧特征组”,包括:确定第一音素的第二时长占用的帧数,为第一音素对应的多个帧特征的数量;基于第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及音色特征,生成第一音素对应的多个帧特征;第一音素对应的多个帧特征中,每个帧特征均包括一个位置索引;位置索引用于标识帧特征在帧特征组中的位置;合并第一音素对应的多个帧特征,以得到第一音素对应的帧特征组。
[0012]可选的,在上述“合并语音数据以及伴奏数据,以生成原始视频数据对应的音乐数据”之后,上述方法还包括:合并音乐数据以及原始视频数据,以生成原始视频数据对应的目标视频数据。
[0013]根据本公开实施例的第二方面,提供一种音乐数据的生成装置,包括获取单元、生成单元以及合并单元;获取单元,用于获取原始视频数据,以及预设的资源模板;资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别;第一时长为字符串在伴奏数据中占用的帧数,重音级别为字符串在伴奏数据中的重音级别;生成单元,用于根据原始视频数据的资源特征,以及伴奏数据中每个伴奏片段的字符串数量,生成与原始视频的资源特征对应的歌词;歌词中的歌词片段与伴奏数据中的伴奏片段一一对应,且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等;生成单元,还用于基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别,以及预设的音色特征,生成具有音色特征的语音数据;语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串;合并单元,用于合并语音数据以及伴奏数据,以生成原始视频数据对应的音乐
数据。
[0014]可选的,上述生成单元,具体还用于:确定歌词中每个字符串所包括的音素以及每个音素的音调;确定每个音素在伴奏数据中的第二时长,以及每个音素的第一能量值;一个字符串中所有音素的第二时长之和为一个字符串的第一时长;一个音素的第一能量值为一个音素在伴奏数据中的能量值,且一个音素的第一能量值与一个音素所在的字符串的重音级别正相关;根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及音色特征,生成语音数据。
[0015]可选的,上述生成单元,具体还用于:对于第一字符串,确定第一字符串中音素的第三时长,以及第一字符串中音素的第二能量值;第一字符串为歌词中任意的一个字符串;一个音素的第三时长为一个音素在歌词的字符串中占用的帧数;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音乐数据的生成方法,其特征在于,包括:获取原始视频数据,以及预设的资源模板;所述资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别;所述第一时长为字符串在所述伴奏数据中占用的帧数,所述重音级别为字符串在所述伴奏数据中的重音级别;根据所述原始视频数据的资源特征,以及所述伴奏数据中每个伴奏片段的字符串数量,生成与所述原始视频的资源特征对应的歌词;所述歌词中的歌词片段与所述伴奏数据中的伴奏片段一一对应,且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等;基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别,以及预设的音色特征,生成具有所述音色特征的语音数据;所述语音数据用于按照对应的所述第一时长及所述重音级别播放所述歌词中的所述每个字符串;合并所述语音数据以及所述伴奏数据,以生成所述原始视频数据对应的音乐数据。2.根据权利要求1所述的音乐数据的生成方法,其特征在于,所述基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别,以及预设的音色特征,生成具有所述音色特征的语音数据,包括:确定所述歌词中所述每个字符串所包括的音素以及每个音素的音调;确定所述每个音素在所述伴奏数据中的第二时长,以及所述每个音素的第一能量值;所述每个字符串中所有音素的所述第二时长之和为所述每个字符串的所述第一时长;每个音素的所述第一能量值为所述每个音素在所述伴奏数据中的能量值,且所述每个音素的所述第一能量值与所述每个音素所在的字符串的重音级别正相关;根据所述每个音素、所述每个音素的音调、所述每个音素的所述第二时长、所述每个音素的所述第一能量值以及所述音色特征,生成所述语音数据。3.根据权利要求2所述的音乐数据的生成方法,其特征在于,所述确定所述每个音素在所述伴奏数据中的第二时长,以及所述每个音素的第一能量值,包括:对于第一字符串,确定所述第一字符串中音素的第三时长,以及所述第一字符串中音素的第二能量值;所述第一字符串为所述歌词中任意的一个字符串;每个音素的所述第三时长为所述每个音素在所述歌词的字符串中占用的帧数;所述每个音素的所述第二能量值为所述每个音素在所述歌词的字符串中的能量值;根据所述第一字符串中音素的所述第三时长,以及所述第一字符串的所述第一时长,确定所述第一字符串中音素的所述第二时长;基于所述第一字符串中音素的所述第二能量值,以及所述第一字符串的所述重音级别,确定所述第一字符串中音素的所述第一能量值。4.根据权利要求3所述的音乐数据的生成方法,其特征在于,所述根据所述第一字符串中音素的所述第三时长,以及所述第一字符串的所述第一时长,确定所述第一字符串中音素的所述第二时长,包括:确定所述第一字符串中音素的所述第三时长之和,与所述第一字符串的所述第一时长的比值,为所述第一字符串的调整比例;基于所述调整比例,分别调整所述第一字符串中音素的所述第三时长,以得到所述第一字符串中音素的所述第二时长。
5.根据权利要求2所述的音乐数据的生成方法,其特征在于,所述根据所述每个音素、所述每个音素的音调、所述每个音素的所述第二时长、所述每个音素的所述第一能量值以及所述音色特...

【专利技术属性】
技术研发人员:王振宇
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1