音乐转录模型的训练方法、音乐转录方法以及对应的装置制造方法及图纸

技术编号:26260177 阅读:34 留言:0更新日期:2020-11-06 17:55
本公开实施例公开了一种音乐转录模型的训练方法、音乐转录方法以及对应的装置,该方法包括:获取训练数据,训练数据中的每个训练样本包括样本音频的音频特征向量、样本音频对应的样本乐谱,以及样本音频中各帧所对应的第一样本时间特征值和第二样本时间特征值;基于训练数据对初始神经网络模型进行训练,直至模型至对应的总损失函数收敛,将训练结束时的模型确定为音乐转录模型;其中,模型的输入为样本音频的音频特征向量,模型的输出包括样本音频中各帧所对应的第一预测时间特征值、第二预测时间特征值、以及预测乐谱。本公开实施例提供的训练方法,可提高音乐转录的准确性,使得转录得到的乐谱更为接近音频的真实表达,适用性高。

【技术实现步骤摘要】
音乐转录模型的训练方法、音乐转录方法以及对应的装置
本公开涉及计算机
,尤其涉及一种音乐转录模型的训练方法、音乐转录方法以及对应的装置。
技术介绍
自动音乐转录(AutomaticMusicTranscription,AMT)可将原始的音乐音频翻译为符号标记,主要包含了音乐音频中各音符的起始时间、结束时间等,在音乐教学、音乐欣赏以及乐理分析等方面具有广泛的应用。但是传统的音乐转录方法主要通过预测每个音频各帧中是否存在音符的方式进行转录,准确率较低。由于音乐作品中的音符较多以及旋律变化多样,因此在传统的音乐转录方法中,帧和音符的相对性往往存在偏差,从而导致得到的乐谱往往和音乐音频的真实音乐表达存在差别。因此,如何进一步提升音乐转录的准确性成为亟需解决的问题。
技术实现思路
本公开实施例提供一种音乐转录模型的训练方法、音乐转录方法以及对应的装置,提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,本文档来自技高网...

【技术保护点】
1.一种音乐转录模型的训练方法,其特征在于,所述方法包括:/n获取训练数据,所述训练数据中的每个训练样本包括样本音频的音频特征向量、所述样本音频对应的样本乐谱,以及所述样本音频中各帧所对应的第一样本时间特征值和第二样本时间特征值,其中,对于任一帧,所述第一样本时间特征值表征了该帧的中间时间点与该帧最近的音符起始时间点之间的时间差,所述第二样本时间特征值表征了该帧的中间时间点与该帧最近的音符结束时间点之间的时间差;/n基于所述训练数据对初始神经网络模型进行训练,直至模型至对应的总损失函数收敛,将训练结束时的模型确定为音乐转录模型;/n其中,模型的输入为所述样本音频的音频特征向量,模型的输出包括所...

【技术特征摘要】
1.一种音乐转录模型的训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据中的每个训练样本包括样本音频的音频特征向量、所述样本音频对应的样本乐谱,以及所述样本音频中各帧所对应的第一样本时间特征值和第二样本时间特征值,其中,对于任一帧,所述第一样本时间特征值表征了该帧的中间时间点与该帧最近的音符起始时间点之间的时间差,所述第二样本时间特征值表征了该帧的中间时间点与该帧最近的音符结束时间点之间的时间差;
基于所述训练数据对初始神经网络模型进行训练,直至模型至对应的总损失函数收敛,将训练结束时的模型确定为音乐转录模型;
其中,模型的输入为所述样本音频的音频特征向量,模型的输出包括所述样本音频中各帧所对应的所述第一预测时间特征值、第二预测时间特征值、以及预测乐谱;
所述总损失函数包括第一训练损失函数、第二训练损失函数和第三训练损失函数,所述第一训练损失函数的值表征了所述样本音频对应的样本乐谱与所述预测乐谱之间的差异,所述第二训练损失的值表征了所述样本音频对应的第一样本时间特征值与所述第一预测时间特征值之间的差异,所述第三训练损失函数的值表征了所述样本音频对应的第二样本时间特征值与所述第二预测时间特征值之间的差异。


2.根据权利要求1所述的方法,其特征在于,所述每个训练样本还包括所述样本音频对应的样本音量,模型的输入还包括所述样本音频的样本音量,模型的输出还包括所述样本音频的对应的预测音量,所述总损失函数还包括第四训练损失函数,所述第四训练损失函数的值表征了所述样本音频的样本音量与所述预测音量之间的差异。


3.根据权利要求2所述的方法,其特征在于,所述每个训练样本还包括所述样本音频所包含的各帧的音符表征值,所述音符表征值表征了一帧中是否包含一个音符起始时间点;所述样本音频的样本音量包括所述样本音频所包含的各帧的样本音量,所述预测音量包含所述各帧的预测音量;
其中,所述第四训练损失函数通过以下方式得到:
对于所述样本音频,基于所述样本音频的各帧对应的样本音量和预测音量,计算所述样本音频的各帧对应的第一损失;
基于所述样本音频的各帧的音符表征值和对应的第一损失,确定所述样本音频的各帧对应的第二损失;
基于所述各样本音频的各帧对应的第二损失,得到所述第四训练损失函数。


4.根据权利要求1述的方法,其特征在于,所述第一训练损失函数、所述第二训练损失函数和所述第三训练损失函数分别为交叉熵损失函数。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述样本音频进行分帧处理得到所述样本音频的各帧,确定所述样本音频的各帧的中间时间点;
获取所述样本音频中所包含的各音符的音符起始时间点和音符结束时间点,对于每一帧,确定与该帧时间距离最近的目标音符起始时间点以及目标音符结束时间点;
基于所述样本音频的各帧的中间时间点、以及各帧对应的目标音符起始时间点和目标音符结束时间点,确定所述样本音频的各帧对应的第一样本时间特征值和第二样本时间特征值。


6.根据权利要求5所述的方法,其特征在于,所述基于所述样本音频的各帧对应的目标音符起始时间点和目标音符结束时间点,确定所述样本音频的各帧对应的第一样本时间特征值和第二样本时间特征值,包括:
对于每一帧,确定该帧的中间时间点与相对应的目标音符起始时间点的第一时间差,以及该帧的中间时间点与相对应的目标音符结束时间点的第二时间差;
基于所述样本音频中各帧对应的第一时间差,确定所述样本音频中各帧对应的第一样本时间特征值;
基于所述样本音频中各帧对应的第二时间差,确定所述样本音频中各帧对应的第二样本时间特征值。


7.根据权利要求6所述的方法,其特征在于,所述基于所述样本音...

【专利技术属性】
技术研发人员:孔秋强王雨轩
申请(专利权)人:字节跳动有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1