音频数据处理方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:35570243 阅读:13 留言:0更新日期:2022-11-12 15:54
本申请实施例提供了一种音频数据处理方法、装置、设备、存储介质及产品,包括:获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息;根据音频片段N1的标注音频特征信息,确定音频片段N1的预测音频特征信息;采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息,预测音频片段N

【技术实现步骤摘要】
音频数据处理方法、装置、设备、存储介质及产品


[0001]本申请涉及音频处理
,尤其涉及一种音频数据处理方法、装置、设备、存储介质及产品。

技术介绍

[0002]音频,如音乐,用于人们的日常休闲娱乐。例如,对于音乐来说,音乐的曲谱都是作曲家自己手动进行创作。由一些歌手基于该曲谱和歌词进行演唱,并在演唱的过程中进行录制,从而生成该歌曲。然而该方式不够自动化智能化。

技术实现思路

[0003]本申请实施例提供了一种音频数据处理方法、装置、设备及存储介质,可以实现音频数据的自动化智能化生成。
[0004]第一方面,本申请实施例提供了一种音频数据处理方法,包括:
[0005]获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息;所述样本多轨音频数据包括至少两个演奏乐器生成的所述N个音频片段;N为大于或等于1的整数;
[0006]根据音频片段N1的标注音频特征信息,确定所述音频片段N1的预测音频特征信息;所述音频片段N1为所述N个音频片段中播放时间最早的音频片段;
[0007]采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息,预测音频片段N
i
的预测音频特征信息;所述音频片段N
i
属于所述N个音频片段中除所述音频片段N1以外的音频片段,i为大于1且小于或等于N的正整数;所述音频片段集合包括所述N个音频片段中播放时间位于所述音频片段N
i
之前的所有音频片段;
[0008]若获取到所述N个音频片段分别对应的预测音频特征信息,则根据所述N个音频片段分别对应的标注音频特征信息,以及所述N个音频片段分别对应的预测音频特征信息,对所述初始音频生成模型进行调整,将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型。
[0009]第二方面,本申请实施例提供了一种音频数据处理装置,包括:
[0010]获取模块,用于获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息;所述样本多轨音频数据包括至少两个演奏乐器生成的所述N个音频片段;N为大于或等于1的整数;
[0011]确定模块,用于根据音频片段N1的标注音频特征信息,确定所述音频片段N1的预测音频特征信息;所述音频片段N1为所述N个音频片段中播放时间最早的音频片段;
[0012]预测模块,用于采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息,预测音频片段N
i
的预测音频特征信息;所述音频片段N
i
属于所述N个音频片段中除所述音频片段N1以外的音频片段,i为大于1且小于或等于N的正整数;所述音频片段集合包括所述N个音频片段中播放时间位于所述音频片段N
i
之前的所有音频片段;
[0013]调整模块,用于若获取到所述N个音频片段分别对应的预测音频特征信息,则根据
所述N个音频片段分别对应的标注音频特征信息,以及所述N个音频片段分别对应的预测音频特征信息,对所述初始音频生成模型进行调整,将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型。
[0014]第三方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法的步骤。
[0015]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。
[0016]第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。
[0017]综上,计算机设备可以获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息;根据音频片段N1的标注音频特征信息,确定音频片段N1的预测音频特征信息;采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息,预测音频片段N
i
的预测音频特征信息;若获取到N个音频片段分别对应的预测音频特征信息,则根据N个音频片段分别对应的标注音频特征信息,以及N个音频片段分别对应的预测音频特征信息,对初始音频生成模型进行调整,将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型,从而实现音频数据的自动化智能化生成。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请实施例提供的一种多媒体数据处理系统的结构示意图;
[0020]图2是本申请实施例提供的一种音频处理方法的流程示意图;
[0021]图3是本申请实施例提供的一种样本音频特征信息的示例;
[0022]图4是本申请实施例提供的一种音频处理过程的示意图;
[0023]图5是本申请实施例提供的一种音频处理装置的结构示意图;
[0024]图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0026]音乐分为单轨音乐和多轨音乐。
[0027]多轨音乐指多个乐器共同演奏的音乐,例如,音乐1由小提琴和钢琴共同演奏而成,音乐1是多轨音乐。音乐2由吉他、贝斯和鼓共同演奏而成,音乐2也是多轨音乐。
[0028]多轨音乐的音频文件分为声音文件和乐器数字接口文件(MIDI,Musical Instrument Digital Interface)文件。多轨音乐的声音文件和MIDI文件相互之间能够进行转换。即,多轨音乐的声音文件可以转录为多轨音乐的MIDI文件,多轨音乐的MIDI文件也能够逆转录为多轨音乐的声音文件。其中,声音文件的格式包括但不限于为Wave、AIF、
Audio、MPEG等格式。MIDI文件的格式为MIDI。
[0029]声音文件是通过录音设备录制而成的音频文件,记录了多轨音乐的二进制采样数据。二进制采样数据是通过对录制的多轨音乐的声音根据模拟信号转换为数字信号得到的。
[0030]MIDI文件是计算机合成的音乐文件,记录了多轨音乐中各个乐器的各个音符的数字控制信号等信息。MIDI文件将音乐以计算机能够理解的语言进行描述。MIDI文件将音乐以字节的形式进行描述。
[0031]MIDI文件记录了音乐的各个小节的音乐数据,音乐数据包括在小节参与演奏的至少一种乐器的乐器信息、在小节参与演奏的每种乐器演奏的各个音符的音符信息等信息。乐器信息用于标识乐器。音符信息包括音符类型、发音时长、发音强度。
[0032]人工智能(Arti本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息;所述样本多轨音频数据包括至少两个演奏乐器生成的所述N个音频片段;N为大于或等于1的整数;根据音频片段N1的标注音频特征信息,确定所述音频片段N1的预测音频特征信息;所述音频片段N1为所述N个音频片段中播放时间最早的音频片段;采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息,预测音频片段N
i
的预测音频特征信息;所述音频片段N
i
属于所述N个音频片段中除所述音频片段N1以外的音频片段,i为大于1且小于或等于N的正整数;所述音频片段集合包括所述N个音频片段中播放时间位于所述音频片段N
i
之前的所有音频片段;若获取到所述N个音频片段分别对应的预测音频特征信息,则根据所述N个音频片段分别对应的标注音频特征信息,以及所述N个音频片段分别对应的预测音频特征信息,对所述初始音频生成模型进行调整,将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型。2.根据权利要求1所述的方法,其特征在于,所述获取N个音频片段分别对应的标注音频特征信息,包括:对所述样本多轨音频数据进行节拍检测,得到所述样本多轨音频数据的M个音频小节;M大于或等于1的整数;对音频小节M
j
进行音符识别,得到所述音频小节M
j
对应的音频片段,以及所述音频小节M
j
对应的音频片段的基本音频属性;j为小于或等于M的正整数,所述音频小节M
j
内的一个音符与一个音频片段对应,所述M个音频小节对应的音频片段的数量为N个;根据所述音频小节M
j
对应的音频片段的基本音频属性,确定所述音频小节M
j
对应的音频片段的标注音频特征信息。3.根据权利要求2所述的方法,所述音频小节M
j
对应的目标音频片段的基本音频属性包括所述目标音频片段的音符类型、发音强度、发音时长、音色、音频节拍;所述目标音频片段为所述音频小节M
j
对应的音频片段中的任一音频片段;所述根据所述音频小节M
j
对应的音频片段的基本音频属性,确定所述音频小节M
j
对应的音频片段的标注音频特征信息,包括:对所述音频小节M
j
对应的所有音频片段的发音强度进行分布检测,确定所述音频小节M
j
对应的发音强度分布特征;根据所述音频小节M
j
对应的发音强度分布特征,确定所述目标音频片段的音频节拍类别;根据所述音频小节M
j
对应的所有音频片段的音符类型,确定所述目标音频片段的和弦特征;所述音频小节M
j
对应的不同音频片段之间的和弦特征相同;根据所述目标音频片段的音色,确定所述目标音频片段对应的演奏乐器类别;根据所述音频小节M
j
对应的所有音频片段的发音时长,以及所述音频小节M
j
对应的所有音频片段的音频节拍,确定所述目标音频片段的发音速度;所述音频小节M
j
对应的不同音频片段之间的发音速度均相同;将所述目标音频片段对应的音频节拍类别、和弦特征、演奏乐器类别、音符类型、发音强度、发音时长、发音速度,确定为所述目标音频片段的标注音频特征信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标音频片段的音色,确定所述目标音频片段对应的演奏乐器类别,包括:根据所述目标音...

【专利技术属性】
技术研发人员:袁微
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1