一种音乐数据的生成方法、装置、设备以及存储介质制造方法及图纸

技术编号：30311916 阅读：21 留言：0更新日期：2021-10-09 22:53

本公开关于一种音乐数据的生成方法、装置、设备以及存储介质，涉及人工智能领域。本公开实施例至少解决相关技术中，生成说唱音乐的技术门槛较高，以及生成的说唱音乐效果不佳的问题。该方法包括：获取原始视频数据，以及预设的资源模板；资源模板包括每个伴奏片段的字符串数量、第一时长以及重音级别；根据原始视频数据的资源特征，以及每个伴奏片段的字符串数量，生成歌词，并基于歌词、歌词中每个字符串的第一时长、每个字符串的重音级别，以及预设的音色特征，生成具有音色特征的语音数据；语音数据用于按照对应的第一时长及重音级别播放歌词中的每个字符串；合并语音数据以及伴奏数据，以生成原始视频数据对应的音乐数据。以生成原始视频数据对应的音乐数据。以生成原始视频数据对应的音乐数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种音乐数据的生成方法、装置、设备以及存储介质

[0001]本公开涉及人工智能领域，尤其涉及一种音乐数据的生成方法、装置、设备以及存储介质。

技术介绍

[0002]说唱音乐利用大量押韵技巧并加上动感的音乐节拍，往往更能够给人比较震撼的感受。相关技术中，通常将人工智能(Artificial Intelligence，AI)技术、语音合成技术应用于说唱音乐的创作。具体的，说唱音乐的创作模块用于根据用户输入的说唱歌词，为说唱歌词匹配合适的背景音乐；进一步的，该创作模块还将说唱歌词变换为语音谱，并将变换得到语音谱贴合到该背景音乐中，以生成说唱音乐。
[0003]但是在上述说唱音乐的创作过程中，需要用户创作说唱歌词并输入到创作模块中，就需要用户具备一定的说唱基础，对于不具备说唱基础的用户，仍然无法使用该创作模块。同时，由于上述创作模块在生成说唱音乐的过程中，直接将说唱歌词的语音谱贴合到背景音乐中，并不能很好的将歌词与背景音乐的节奏进行贴合，生成的说唱音乐较为机械，无法满足用户的需求。

技术实现思路

[0004]本公开提供一种音乐数据的生成方法、装置、设备以及存储介质，以至少解决相关技术中，生成说唱音乐的技术门槛较高，以及生成的说唱音乐效果不佳的问题。本公开的技术方案如下：
[0005]根据本公开实施例的第一方面，提供一种音乐数据的生成方法，包括：获取原始视频数据，以及预设的资源模板；资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别；第一时长为字符串在伴奏数据中占用的帧数...

【技术保护点】

【技术特征摘要】
1.一种音乐数据的生成方法，其特征在于，包括：获取原始视频数据，以及预设的资源模板；所述资源模板包括预设的伴奏数据中每个伴奏片段的字符串数量、第一时长以及重音级别；所述第一时长为字符串在所述伴奏数据中占用的帧数，所述重音级别为字符串在所述伴奏数据中的重音级别；根据所述原始视频数据的资源特征，以及所述伴奏数据中每个伴奏片段的字符串数量，生成与所述原始视频的资源特征对应的歌词；所述歌词中的歌词片段与所述伴奏数据中的伴奏片段一一对应，且每个歌词片段的字符串数量与对应的伴奏片段的字符串数量相等；基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及预设的音色特征，生成具有所述音色特征的语音数据；所述语音数据用于按照对应的所述第一时长及所述重音级别播放所述歌词中的所述每个字符串；合并所述语音数据以及所述伴奏数据，以生成所述原始视频数据对应的音乐数据。2.根据权利要求1所述的音乐数据的生成方法，其特征在于，所述基于所述歌词、所述歌词中每个字符串的所述第一时长、所述每个字符串的所述重音级别，以及预设的音色特征，生成具有所述音色特征的语音数据，包括：确定所述歌词中所述每个字符串所包括的音素以及每个音素的音调；确定所述每个音素在所述伴奏数据中的第二时长，以及所述每个音素的第一能量值；所述每个字符串中所有音素的所述第二时长之和为所述每个字符串的所述第一时长；每个音素的所述第一能量值为所述每个音素在所述伴奏数据中的能量值，且所述每个音素的所述第一能量值与所述每个音素所在的字符串的重音级别正相关；根据所述每个音素、所述每个音素的音调、所述每个音素的所述第二时长、所述每个音素的所述第一能量值以及所述音色特征，生成所述语音数据。3.根据权利要求2所述的音乐数据的生成方法，其特征在于，所述确定所述每个音素在所述伴奏数据中的第二时长，以及所述每个音素的第一能量值，包括：对于第一字符串，确定所述第一字符串中音素的第三时长，以及所述第一字符串中音素的第二能量值；所述第一字符串为所述歌词中任意的一个字符串；每个音素的所述第三时长为所述每个音素在所述歌词的字符串中占用的帧数；所述每个音素的所述第二能量值为所述每个音素在所述歌词的字符串中的能量值；根据所述第一字符串中音素的所述第三时长，以及所述第一字符串的所述第一时长，确定所述第一字符串中音素的所述第二时长；基于所述第一字符串中音素的所述第二能量值，以及所述第一字符串的所述重音级别，确定所述第一字符串中音素的所述第一能量值。4.根据权利要求3所述的音乐数据的生成方法，其特征在于，所述根据所述第一字符串中音素的所述第三时长，以及所述第一字符串的所述第一时长，确定所述第一字符串中音素的所述第二时长，包括：确定所述第一字符串中音素的所述第三时长之和，与所述第一字符串的所述第一时长的比值，为所述第一字符串的调整比例；基于所述调整比例，分别调整所述第一字符串中音素的所述第三时长，以得到所述第一字符串中音素的所述第二时长。
5.根据权利要求2所述的音乐数据的生成方法，其特征在于，所述根据所述每个音素、所述每个音素的音调、所述每个音素的所述第二时长、所述每个音素的所述第一能量值以及所述音色特...

【专利技术属性】
技术研发人员：王振宇，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人