一种音乐数据的生成方法、装置、设备以及存储介质制造方法及图纸

技术编号:30319905 阅读:16 留言:0更新日期:2021-10-09 23:30
本公开关于一种音乐数据的生成方法、装置、设备以及存储介质,涉及人工智能领域。本公开实施例至少解决相关技术中,生成的说唱音乐效果不佳的问题。该方法包括:获取包括人声信号的多媒体资源,并将人声信号对应的文本匹配至预设的资源模板中,以确定与人声信号对应的歌词;确定歌词中每个字符串在伴奏数据中占用的第一时长,以及每个字符串在伴奏数据中的重音级别;基于歌词、每个字符串的第一时长、每个字符串的重音级别,以及目标音色特征,生成具有目标音色特征的语音数据;语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串;合并语音数据以及伴奏数据,以生成人声信号对应的音乐数据。声信号对应的音乐数据。声信号对应的音乐数据。

【技术实现步骤摘要】
一种音乐数据的生成方法、装置、设备以及存储介质


[0001]本公开涉及人工智能领域,尤其涉及一种音乐数据的生成方法、装置、设备以及存储介质。

技术介绍

[0002]说唱音乐利用大量押韵技巧并加上动感的音乐节拍,往往更能够给人比较震撼的感受。相关技术中,通常将人工智能(Artificial Intelligence,AI)技术、语音合成技术应用于说唱音乐的创作。具体的,说唱音乐的创作模块用于根据用户输入的说唱歌词,为说唱歌词匹配合适的背景音乐;进一步的,该创作模块还将说唱歌词变换为语音谱,并将变换得到语音谱贴合到该背景音乐中,以生成说唱音乐。
[0003]但是在上述说唱音乐的创作过程中,需要用户创作说唱歌词并输入到创作模块中,就需要用户具备一定的说唱基础,对于不具备说唱基础的用户,仍然无法使用该创作模块。同时,由于上述创作模块在生成说唱音乐的过程中,直接将说唱歌词的语音谱贴合到背景音乐中,并不能很好的将歌词与背景音乐的节奏进行贴合,生成的说唱音乐较为机械,无法满足用户的需求。

技术实现思路

[0004]本公开提供一种音乐数据的生成方法、装置、设备以及存储介质,以至少解决相关技术中,生成说唱音乐的门槛高、且生成的说唱音乐效果不佳的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音乐数据的生成方法,包括:获取包括人声信号的多媒体资源,并将人声信号对应的文本匹配至预设的资源模板中,以确定与人声信号对应的歌词;资源模板包括预设的伴奏数据中每个伴奏片段的最大字符串数量;歌词的歌词片段与伴奏数据的伴奏片段一一对应,且每个歌词片段中的字符串数量小于或者等于对应的伴奏片段的最大字符串数量;确定歌词中每个字符串在伴奏数据中占用的第一时长,以及每个字符串在伴奏数据中的重音级别;基于歌词、每个字符串的第一时长、每个字符串的重音级别,以及目标音色特征,生成具有目标音色特征的语音数据;目标音色特征包括预设的音色特征,或者与人声信号对应的音色特征;语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串;合并语音数据以及伴奏数据,以生成人声信号对应的音乐数据。
[0006]可选的,上述“将人声信号对应的文本匹配至预设的资源模板中,以确定与人声信号对应的歌词”,包括:获取文本包括的文本片段;依次将每个文本片段匹配至伴奏数据所包括的伴奏片段中,直至所有的文本片段匹配完毕,以确定歌词所包括的歌词片段;每个文本片段均对应至少一个歌词片段。
[0007]可选的,上述“依次将每个文本片段匹配至伴奏数据所包括的伴奏片段中”,包括:在一个文本片段的字符串数量小于或者等于对应的伴奏片段的最大字符串数量的情况下,
确定一个文本片段为一个歌词片段;在一个文本片段的字符串数量大于对应的伴奏片段的最大字符串数量的情况下,将一个文本片段分割为多个子文本片段,并将每个子文本片段确定为歌词中的歌词片段;每个子文本片段的字符串数量小于或者等于对应的伴奏片段的最大字符串数量。
[0008]可选的,上述资源模板还包括每个伴奏片段的时长,以及每个伴奏片段中节拍的能量值;上述“确定歌词中每个字符串在伴奏数据中占用的第一时长,以及每个字符串在伴奏数据中的重音级别”,包括:确定对应的伴奏片段的时长与每个歌词片段的字符串数量的比值,为每个字符串的第一时长;基于伴奏数据所包括的节拍的能量值,确定每个字符串的重音级别。
[0009]可选的,上述“基于歌词、每个字符串的第一时长、每个字符串的重音级别,以及目标音色特征,生成具有目标音色特征的语音数据”,包括:确定歌词中每个字符串所包括的音素以及每个音素的音调;确定每个音素在伴奏数据中的第二时长,以及每个音素的第一能量值;每个字符串中所有音素的第二时长之和为每个字符串的第一时长;每个音素的第一能量值为每个音素在伴奏数据中的能量值,且每个音素的第一能量值与每个音素所在的字符串的重音级别正相关;根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及目标音色特征,生成语音数据。
[0010]可选的,上述“确定每个音素在伴奏数据中的第二时长,以及每个音素的第一能量值”,包括:对于第一字符串,确定第一字符串中音素的第三时长,以及第一字符串中音素的第二能量值;第一字符串为歌词中任意的一个字符串;每个音素的第三时长为每个音素在歌词的字符串中占用的帧数;每个音素的第二能量值为每个音素在歌词的字符串中的能量值;根据第一字符串中音素的第三时长,以及第一字符串的第一时长,确定第一字符串中音素的第二时长;基于第一字符串中音素的第二能量值,以及第一字符串的重音级别,确定第一字符串中音素的第一能量值。
[0011]可选的,上述“根据第一字符串中音素的第三时长,以及第一字符串的第一时长,确定第一字符串中音素的第二时长”,包括:确定第一字符串中音素的第三时长之和,与第一字符串的第一时长的比值,为第一字符串的调整比例;基于调整比例,分别调整第一字符串中音素的第三时长,以得到第一字符串中音素的第二时长。
[0012]可选的,上述“根据每个音素、每个音素的音调、每个音素的第二时长、每个音素的第一能量值以及目标音色特征,生成语音数据”,包括:对于第一音素,根据第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及目标音色特征,生成与第一音素对应的帧特征组;第一音素为歌词中的任意一个音素;每个音素对应的帧特征组包括多个帧特征,且多个帧特征的数量对应于每个音素的第二时长;每个音素对应的每个帧特征均均包括每个音素、每个音素的音调、每个音素的第一能量值以及目标音色特征;合并歌词中所有音素分别对应的帧特征组,以得到歌词对应的语音谱参数,并将语音谱参数转换为语音数据。
[0013]可选的,上述“根据第一音素的第二时长、第一音素的音调、第一音素的第一能量值以及目标音色特征,生成与第一音素对应的帧特征组”,包括:确定第一音素的第二时长占用的帧数,为第一音素对应的多个帧特征的数量;基于第一音素对应的多个帧特征的数量、第一音素、第一音素的音调、第一音素的第一能量值以及目标音色特征,生成第一音素对应的多个帧特征;第一音素对应的多个帧特征中,每个帧特征均包括一个位置索引;位置
索引用于标识帧特征在帧特征组中的位置;合并第一音素对应的多个帧特征,以得到第一音素对应的帧特征组。
[0014]可选的,在多媒体资源为视频资源的情况下,在上述“合并语音数据以及伴奏数据,以生成人声信号对应的音乐数据”之后,上述方法还包括:去除多媒体资源中的人声信号,以得到多媒体资源中的视频帧数据;合并音乐数据以及视频帧数据,以生成多媒体资源对应的目标视频数据。
[0015]根据本公开实施例的第二方面,提供一种音乐数据的生成装置,包括获取单元、确定单元、生成单元以及合并单元;获取单元,用于获取包括人声信号的多媒体资源;确定单元,用于将人声信号对应的文本匹配至预设的资源模板中,以确定与人声信号对应的歌词;资源模板包括预设的伴奏数据中每个伴奏片段的最大字符串数量;歌词的歌词片段与伴奏数据的伴奏本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音乐数据的生成方法,其特征在于,包括:获取包括人声信号的多媒体资源,并将所述人声信号对应的文本匹配至预设的资源模板中,以确定与所述人声信号对应的歌词;所述资源模板包括预设的伴奏数据中每个伴奏片段的最大字符串数量;所述歌词的歌词片段与所述伴奏数据的伴奏片段一一对应,且每个歌词片段中的字符串数量小于或者等于对应的伴奏片段的最大字符串数量;确定所述歌词中每个字符串在所述伴奏数据中占用的第一时长,以及所述每个字符串在所述伴奏数据中的重音级别;基于所述歌词、所述每个字符串的所述第一时长、所述每个字符串的所述重音级别,以及目标音色特征,生成具有所述目标音色特征的语音数据;所述目标音色特征包括预设的音色特征,或者与所述人声信号对应的音色特征;所述语音数据用于按照对应的所述第一时长及所述重音级别播放所述歌词中的所述每个字符串;合并所述语音数据以及所述伴奏数据,以生成所述人声信号对应的音乐数据。2.根据权利要求1所述的音乐数据的生成方法,其特征在于,所述将所述人声信号对应的文本匹配至预设的资源模板中,以确定与所述人声信号对应的歌词,包括:获取所述文本包括的文本片段;依次将每个文本片段匹配至所述伴奏数据所包括的伴奏片段中,直至所有的文本片段匹配完毕,以确定所述歌词所包括的歌词片段;每个文本片段均对应至少一个歌词片段。3.根据权利要求2所述的音乐数据的生成方法,其特征在于,所述依次将每个文本片段匹配至所述伴奏数据所包括的伴奏片段中,包括:在一个文本片段的字符串数量小于或者等于对应的伴奏片段的最大字符串数量的情况下,确定所述一个文本片段为一个歌词片段;在所述一个文本片段的字符串数量大于对应的伴奏片段的最大字符串数量的情况下,将所述一个文本片段分割为多个子文本片段,并将每个子文本片段确定为所述歌词中的歌词片段;所述每个子文本片段的字符串数量小于或者等于对应的伴奏片段的最大字符串数量。4.根据权利要求1所述的音乐数据的生成方法,其特征在于,所述资源模板还包括所述每个伴奏片段的时长,以及每个伴奏片段中节拍的能量值;所述确定所述歌词中每个字符串在所述伴奏数据中占用的第一时长,以及所述每个字符串在所述伴奏数据中的重音级别,包括:确定对应的伴奏片段的时长与所述每个歌词片段的字符串数量的比值,为所述每个字符串的所述第一时长;基于所述伴奏数据所包括的节拍的能量值,确定所述每个字符串的所述重音级别。5.根据权利要求1所述的音乐数据的生成方法,其特征在于,所述基于所述歌词、所述每个字符串的所述第一时长、所述每个字符串的所述重音级别,以及目标音色特征,生成具有所述目标音色特征的语音数据,包括:确定所述歌词中所述每个字符串所包括的音素以及每个音素的音调;确定所述每个音素在所述伴奏数据中的第二时长,以及所述每个音素的第一能量值;所述每个字符串中所有音素的所述第二时长之和为所述每个字符串的所述第一时长;每个音素的所述第一能量值为所述每个音素在所述伴...

【专利技术属性】
技术研发人员:王振宇
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1