一种音乐数据的生成方法、装置、设备以及存储介质制造方法及图纸

技术编号：30319905 阅读：28 留言：0更新日期：2021-10-09 23:30

本公开关于一种音乐数据的生成方法、装置、设备以及存储介质，涉及人工智能领域。本公开实施例至少解决相关技术中，生成的说唱音乐效果不佳的问题。该方法包括：获取包括人声信号的多媒体资源，并将人声信号对应的文本匹配至预设的资源模板中，以确定与人声信号对应的歌词；确定歌词中每个字符串在伴奏数据中占用的第一时长，以及每个字符串在伴奏数据中的重音级别；基于歌词、每个字符串的第一时长、每个字符串的重音级别，以及目标音色特征，生成具有目标音色特征的语音数据；语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串；合并语音数据以及伴奏数据，以生成人声信号对应的音乐数据。声信号对应的音乐数据。声信号对应的音乐数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种音乐数据的生成方法、装置、设备以及存储介质

[0001]本公开涉及人工智能领域，尤其涉及一种音乐数据的生成方法、装置、设备以及存储介质。

技术介绍

[0002]说唱音乐利用大量押韵技巧并加上动感的音乐节拍，往往更能够给人比较震撼的感受。相关技术中，通常将人工智能(Artificial Intelligence，AI)技术、语音合成技术应用于说唱音乐的创作。具体的，说唱音乐的创作模块用于根据用户输入的说唱歌词，为说唱歌词匹配合适的背景音乐；进一步的，该创作模块还将说唱歌词变换为语音谱，并将变换得到语音谱贴合到该背景音乐中，以生成说唱音乐。
[0003]但是在上述说唱音乐的创作过程中，需要用户创作说唱歌词并输入到创作模块中，就需要用户具备一定的说唱基础，对于不具备说唱基础的用户，仍然无法使用该创作模块。同时，由于上述创作模块在生成说唱音乐的过程中，直接将说唱歌词的语音谱贴合到背景音乐中，并不能很好的将歌词与背景音乐的节奏进行贴合，生成的说唱音乐较为机械，无法满足用户的需求。

技术实现思路

[0004]...

【技术保护点】

【技术特征摘要】
1.一种音乐数据的生成方法，其特征在于，包括：获取包括人声信号的多媒体资源，并将所述人声信号对应的文本匹配至预设的资源模板中，以确定与所述人声信号对应的歌词；所述资源模板包括预设的伴奏数据中每个伴奏片段的最大字符串数量；所述歌词的歌词片段与所述伴奏数据的伴奏片段一一对应，且每个歌词片段中的字符串数量小于或者等于对应的伴奏片段的最大字符串数量；确定所述歌词中每个字符串在所述伴奏数据中占用的第一时长，以及所述每个字符串在所述伴奏数据中的重音级别；基于所述歌词、所述每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及目标音色特征，生成具有所述目标音色特征的语音数据；所述目标音色特征包括预设的音色特征，或者与所述人声信号对应的音色特征；所述语音数据用于按照对应的所述第一时长及所述重音级别播放所述歌词中的所述每个字符串；合并所述语音数据以及所述伴奏数据，以生成所述人声信号对应的音乐数据。2.根据权利要求1所述的音乐数据的生成方法，其特征在于，所述将所述人声信号对应的文本匹配至预设的资源模板中，以确定与所述人声信号对应的歌词，包括：获取所述文本包括的文本片段；依次将每个文本片段匹配至所述伴奏数据所包括的伴奏片段中，直至所有的文本片段匹配完毕，以确定所述歌词所包括的歌词片段；每个文本片段均对应至少一个歌词片段。3.根据权利要求2所述的音乐数据的生成方法，其特征在于，所述依次将每个文本片段匹配至所述伴奏数据所包括的伴奏片段中，包括：在一个文本片段的字符串数量小于或者等于对应的伴奏片段的最大字符串数量的情况下，确定所述一个文本片段为一个歌词片段；在所述一个文本片段的字符串数量大于对应的伴奏片段的最大字符串数量的情况下，将所述一个文本片段分割为多个子文本片段，并将每个子文本片段确定为所述歌词中的歌词片段；所述每个子文本片段的字符串数量小于或者等于对应的伴奏片段的最大字符串数量。4.根据权利要求1所述的音乐数据的生成方法，其特征在于，所述资源模板还包括所述每个伴奏片段的时长，以及每个伴奏片段中节拍的能量值；所述确定所述歌词中每个字符串在所述伴奏数据中占用的第一时长，以及所述每个字符串在所述伴奏数据中的重音级别，包括：确定对应的伴奏片段的时长与所述每个歌词片段的字符串数量的比值，为所述每个字符串的所述第一时长；基于所述伴奏数据所包括的节拍的能量值，确定所述每个字符串的所述重音级别。5.根据权利要求1所述的音乐数据的生成方法，其特征在于，所述基于所述歌词、所述每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及目标音色特征，生成具有所述目标音色特征的语音数据，包括：确定所述歌词中所述每个字符串所包括的音素以及每个音素的音调；确定所述每个音素在所述伴奏数据中的第二时长，以及所述每个音素的第一能量值；所述每个字符串中所有音素的所述第二时长之和为所述每个字符串的所述第一时长；每个音素的所述第一能量值为所述每个音素在所述伴...

【专利技术属性】
技术研发人员：王振宇，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人