节拍检测模型的训练方法、装置及电子设备制造方法及图纸

技术编号:39297954 阅读:11 留言:0更新日期:2023-11-07 11:06
本公开关于一种节拍检测模型的训练方法、装置及电子设备,其中,该方法包括:获取多个音频片段的节拍标注信息和帧特征序列;节拍标注信息包括,音频片段中各个音频帧的标注节拍类型;针对每个音频片段,根据音频片段中第一音频帧的标注节拍类型,对第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到音频片段的调整后节拍信息;第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型;根据多个音频片段的调整后节拍信息和帧特征序列,对初始的节拍检测模型进行训练处理,得到训练好的节拍检测模型,其中,对音频片段的标注节拍信息的调整处理,能够降低标注节拍信息的误差,提高训练得到的节拍检测模型的准确度。训练得到的节拍检测模型的准确度。训练得到的节拍检测模型的准确度。

【技术实现步骤摘要】
节拍检测模型的训练方法、装置及电子设备


[0001]本公开涉及音频处理
,尤其涉及一种节拍检测模型的训练方法、装置及电子设备。

技术介绍

[0002]目前的节拍检测模型的训练方法主要为,获取多个音频片段,以及音频片段的节拍标注信息以及流派信息;将多个音频片段以及对应的节拍标注信息和流派信息,作为训练数据,对多个流派的节拍检测模型进行训练处理,得到多个训练好的节拍检测模型。
[0003]上述方法中,需要确定音乐的流派信息,成本高;且节拍标注信息的误差较大,导致训练得到节拍检测模型的准确度较低。

技术实现思路

[0004]本公开提供一种节拍检测模型的训练方法、装置及电子设备。
[0005]根据本公开实施例的第一方面,提供一种节拍检测模型的训练方法,所述方法包括:获取多个音频片段的节拍标注信息和帧特征序列;所述节拍标注信息包括,音频片段中各个音频帧的标注节拍类型;针对每个音频片段,根据所述音频片段中第一音频帧的标注节拍类型,对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到所述音频片段的调整后节拍信息;所述第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型;根据多个音频片段的调整后节拍信息和帧特征序列,确定训练数据;获取初始的节拍检测模型;采用所述训练数据,对所述初始的节拍检测模型进行训练处理,得到训练好的节拍检测模型。
[0006]在本公开的一个实施例中,所述帧特征序列包括,音频片段中各个音频帧的帧特征;所述帧特征,为音频帧的梅尔倒谱系数MFCC。
[0007]在本公开的一个实施例中,所述针对每个音频片段,根据所述音频片段中第一音频帧的标注节拍类型,对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到所述音频片段的调整后节拍信息,包括:针对每个音频片段,获取所述音频片段中的第一音频帧,以及所述第一音频帧的周边音频帧;所述周边音频帧的序列号与所述第一音频帧的序列号的差值小于或者等于预设差值阈值;将所述周边音频帧的标注节拍类型,调整为所述第一音频帧的标注节拍类型。
[0008]在本公开的一个实施例中,所述采用所述训练数据,对所述初始的节拍检测模型进行训练处理,得到训练好的节拍检测模型,包括:针对所述训练数据中的每个音频片段,将所述音频片段的帧特征序列输入所述节拍检测模型,获取所述音频片段中音频帧属于各个节拍类型的概率;根据所述音频片段中音频帧属于各个节拍类型的概率,确定所述音频片段中音频帧的预测节拍类型;根据所述音频片段中各个音频帧的节拍类型和预测节拍类型,以及所述节拍检测模型的损失函数,确定所述损失函数的数值;根据所述损失函数的数值,对所述节拍检测模型进行系数调整处理,得到训练好的节拍检测模型。
[0009]在本公开的一个实施例中,所述损失函数为焦点损失函数;所述焦点损失函数中,针对每个节拍类型设置有对应的权重;非节拍对应的权重,小于除非节拍以外的其他节拍类型对应的权重。
[0010]在本公开的一个实施例中,所述初始的节拍检测模型中包括多个特征提取网络以及多头注意力机制网络;多个特征提取网络中,序列号小于或者等于序列号阈值的特征提取网络,用于提取帧特征的上下文信息;序列号大于所述序列号阈值的特征提取网络,不用于提取帧特征的上下文信息。
[0011]在本公开的一个实施例中,所述初始的节拍检测模型为时延神经网络模型TDNN。
[0012]根据本公开实施例的第二方面,还提供一种节拍检测方法,所述方法包括:获取待处理的音频片段,以及所述音频片段的帧特征序列;所述帧特征序列包括,音频片段中各个音频帧的帧特征;将所述音频片段中音频帧的帧特征输入节拍检测模型,获取所述节拍检测模型输出的音频帧属于各个节拍类型的概率;所述节拍检测模型,结合第一方面中的节拍检测模型的训练方法训练得到;根据所述音频片段中音频帧属于各个节拍类型的概率,确定所述音频片段中音频帧的节拍类型;根据所述音频片段中音频帧的节拍类型,确定所述音频片段中的节拍时间点,以及所述节拍时间点上的节拍类型。
[0013]在本公开的一个实施例中,所述方法还包括:获取待控制的终端设备,以及所述终端设备上待控制的参数;按照所述音频片段中节拍时间点,以及所述节拍时间点上的节拍类型,对所述终端设备的所述参数进行调整处理。
[0014]在本公开的一个实施例中,所述终端设备包括音乐灯;所述音乐灯上待控制的参数包括以下至少一种:灯光颜色、灯光亮度、灯光照射范围。
[0015]根据本公开实施例的第三方面,还提供一种节拍检测模型的训练装置,所述装置包括:第一获取模块,用于获取多个音频片段的节拍标注信息和帧特征序列;所述节拍标注信息包括,音频片段中各个音频帧的标注节拍类型;调整处理模块,用于针对每个音频片段,根据所述音频片段中第一音频帧的标注节拍类型,对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到所述音频片段的调整后节拍信息;所述第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型;确定模块,用于根据多个音频片段的调整后节拍信息和帧特征序列,确定训练数据;第二获取模块,用于获取初始的节拍检测模型;训练模块,用于采用所述训练数据,对所述初始的节拍检测模型进行训练处理,得到训练好的节拍检测模型。
[0016]根据本公开实施例的第四方面,还提供一种节拍检测装置,所述装置包括:获取模块,用于获取待处理的音频片段,以及所述音频片段的帧特征序列;所述帧特征序列包括,音频片段中各个音频帧的帧特征;输入模块,用于将所述音频片段中音频帧的帧特征输入节拍检测模型,获取所述节拍检测模型输出的音频帧属于各个节拍类型的概率;所述节拍检测模型,结合如上所述的节拍检测模型的训练方法训练得到;第一确定模块,用于根据所述音频片段中音频帧属于各个节拍类型的概率,确定所述音频片段中音频帧的节拍类型;第二确定模块,用于根据所述音频片段中音频帧的节拍类型,确定所述音频片段中的节拍时间点,以及所述节拍时间点上的节拍类型。
[0017]根据本公开实施例的第五方面,还提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:实现如上所述的节拍检测模型
的训练方法的步骤;或者,实现如上所述的节拍检测方法的步骤。
[0018]根据本公开实施例的第六方面,还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行如上所述的节拍检测模型的训练方法;或者,执行如上所述的节拍检测方法。
[0019]本公开的实施例提供的技术方案至少带来以下有益效果:
[0020]通过获取多个音频片段的节拍标注信息和帧特征序列;节拍标注信息包括,音频片段中各个音频帧的标注节拍类型;针对每个音频片段,根据音频片段中第一音频帧的标注节拍类型,对第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到音频片段的调整后节拍信息;第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型;根据多个音频片段的调整后节拍信息和帧特征序列,确定训练数据;获取初始的节拍检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种节拍检测模型的训练方法,其特征在于,所述方法包括:获取多个音频片段的节拍标注信息和帧特征序列;所述节拍标注信息包括,音频片段中各个音频帧的标注节拍类型;针对每个音频片段,根据所述音频片段中第一音频帧的标注节拍类型,对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到所述音频片段的调整后节拍信息;所述第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型;根据多个音频片段的调整后节拍信息和帧特征序列,确定训练数据;获取初始的节拍检测模型;采用所述训练数据,对所述初始的节拍检测模型进行训练处理,得到训练好的节拍检测模型。2.根据权利要求1所述的方法,其特征在于,所述帧特征序列包括,音频片段中各个音频帧的帧特征;所述帧特征,为音频帧的梅尔倒谱系数MFCC。3.根据权利要求1所述的方法,其特征在于,所述针对每个音频片段,根据所述音频片段中第一音频帧的标注节拍类型,对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理,得到所述音频片段的调整后节拍信息,包括:针对每个音频片段,获取所述音频片段中的第一音频帧,以及所述第一音频帧的周边音频帧;所述周边音频帧的序列号与所述第一音频帧的序列号的差值小于或者等于预设差值阈值;将所述周边音频帧的标注节拍类型,调整为所述第一音频帧的标注节拍类型。4.根据权利要求1所述的方法,其特征在于,所述采用所述训练数据,对所述初始的节拍检测模型进行训练处理,得到训练好的节拍检测模型,包括:针对所述训练数据中的每个音频片段,将所述音频片段的帧特征序列输入所述节拍检测模型,获取所述音频片段中音频帧属于各个节拍类型的概率;根据所述音频片段中音频帧属于各个节拍类型的概率,确定所述音频片段中音频帧的预测节拍类型;根据所述音频片段中各个音频帧的节拍类型和预测节拍类型,以及所述节拍检测模型的损失函数,确定所述损失函数的数值;根据所述损失函数的数值,对所述节拍检测模型进行系数调整处理,得到训练好的节拍检测模型。5.根据权利要求1或4所述的方法,其特征在于,所述损失函数为焦点损失函数;所述焦点损失函数中,针对每个节拍类型设置有对应的权重;非节拍对应的权重,小于除非节拍以外的其他节拍类型对应的权重。6.根据权利要求1或4所述的方法,其特征在于,所述初始的节拍检测模型中包括多个特征提取网络以及多头注意力机制网络;多个特征提取网络中,序列号小于或者等于序列号阈值的特征提取网络,用于提取帧特征的上下文信息;序列号大于所述序列号阈值的特征提取网络,不用于提取帧特征的上下文信息。7.根据权利要求1所述的方法,其特征在于,所述初始的节拍检测模型为时延神经网络
模型TDNN。8.一种节拍检测方法,其特征在于,所述方法包括:获取待处理的音频片段,以及所述音频片段的帧特征序列;所述帧特征序列包括,音频片段中各个音频帧的帧特征;将所述音频片段...

【专利技术属性】
技术研发人员:王壹丰
申请(专利权)人:北京小米移动软件有限公司北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1