当前位置: 首页 > 专利查询>北京小米移动软件有限公司北京小米松果电子有限公司专利>正文

节拍检测模型的训练方法、装置及电子设备制造方法及图纸

技术编号：39297954 阅读：11 留言：0更新日期：2023-11-07 11:06

本公开关于一种节拍检测模型的训练方法、装置及电子设备，其中，该方法包括：获取多个音频片段的节拍标注信息和帧特征序列；节拍标注信息包括，音频片段中各个音频帧的标注节拍类型；针对每个音频片段，根据音频片段中第一音频帧的标注节拍类型，对第一音频帧的周边音频帧的标注节拍类型进行调整处理，得到音频片段的调整后节拍信息；第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型；根据多个音频片段的调整后节拍信息和帧特征序列，对初始的节拍检测模型进行训练处理，得到训练好的节拍检测模型，其中，对音频片段的标注节拍信息的调整处理，能够降低标注节拍信息的误差，提高训练得到的节拍检测模型的准确度。训练得到的节拍检测模型的准确度。训练得到的节拍检测模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
节拍检测模型的训练方法、装置及电子设备

[0001]本公开涉及音频处理
，尤其涉及一种节拍检测模型的训练方法、装置及电子设备。

技术介绍

[0002]目前的节拍检测模型的训练方法主要为，获取多个音频片段，以及音频片段的节拍标注信息以及流派信息；将多个音频片段以及对应的节拍标注信息和流派信息，作为训练数据，对多个流派的节拍检测模型进行训练处理，得到多个训练好的节拍检测模型。
[0003]上述方法中，需要确定音乐的流派信息，成本高；且节拍标注信息的误差较大，导致训练得到节拍检测模型的准确度较低。

技术实现思路

[0004]本公开提供一种节拍检测模型的训练方法、装置及电子设备。
[0005]根据本公开实施例的第一方面，提供一种节拍检测模型的训练方法，所述方法包括：获取多个音频片段的节拍标注信息和帧特征序列；所述节拍标注信息包括，音频片段中各个音频帧的标注节拍类型；针对每个音频片段，根据所述音频片段中第一音频帧的标注节拍类型，对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理，得到所述音频片段的调整后节拍信息；所述第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型；根据多个音频片段的调整后节拍信息和帧特征序列，确定训练数据；获取初始的节拍检测模型；采用所述训练数据，对所述初始的节拍检测模型进行训练处理，得到训练好的节拍检测模型。
[0006]在本公开的一个实施例中，所述帧特征序列包括，音频片段中各个音频帧的帧特征；所述帧特征，为音频帧的梅尔倒谱系数MFCC。
[00...

【技术保护点】

【技术特征摘要】
1.一种节拍检测模型的训练方法，其特征在于，所述方法包括：获取多个音频片段的节拍标注信息和帧特征序列；所述节拍标注信息包括，音频片段中各个音频帧的标注节拍类型；针对每个音频片段，根据所述音频片段中第一音频帧的标注节拍类型，对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理，得到所述音频片段的调整后节拍信息；所述第一音频帧的标注节拍类型为除非节拍以外的其他节拍类型；根据多个音频片段的调整后节拍信息和帧特征序列，确定训练数据；获取初始的节拍检测模型；采用所述训练数据，对所述初始的节拍检测模型进行训练处理，得到训练好的节拍检测模型。2.根据权利要求1所述的方法，其特征在于，所述帧特征序列包括，音频片段中各个音频帧的帧特征；所述帧特征，为音频帧的梅尔倒谱系数MFCC。3.根据权利要求1所述的方法，其特征在于，所述针对每个音频片段，根据所述音频片段中第一音频帧的标注节拍类型，对所述第一音频帧的周边音频帧的标注节拍类型进行调整处理，得到所述音频片段的调整后节拍信息，包括：针对每个音频片段，获取所述音频片段中的第一音频帧，以及所述第一音频帧的周边音频帧；所述周边音频帧的序列号与所述第一音频帧的序列号的差值小于或者等于预设差值阈值；将所述周边音频帧的标注节拍类型，调整为所述第一音频帧的标注节拍类型。4.根据权利要求1所述的方法，其特征在于，所述采用所述训练数据，对所述初始的节拍检测模型进行训练处理，得到训练好的节拍检测模型，包括：针对所述训练数据中的每个音频片段，将所述音频片段的帧特征序列输入所述节拍检测模型，获取所述音频片段中音频帧属于各个节拍类型的概率；根据所述音频片段中音频帧属于各个节拍类型的概率，确定所述音频片段中音频帧的预测节拍类型；根据所述音频片段中各个音频帧的节拍类型和预测节拍类型，以及所述节拍检测模型的损失函数，确定所述损失函数的数值；根据所述损失函数的数值，对所述节拍检测模型进行系数调整处理，得到训练好的节拍检测模型。5.根据权利要求1或4所述的方法，其特征在于，所述损失函数为焦点损失函数；所述焦点损失函数中，针对每个节拍类型设置有对应的权重；非节拍对应的权重，小于除非节拍以外的其他节拍类型对应的权重。6.根据权利要求1或4所述的方法，其特征在于，所述初始的节拍检测模型中包括多个特征提取网络以及多头注意力机制网络；多个特征提取网络中，序列号小于或者等于序列号阈值的特征提取网络，用于提取帧特征的上下文信息；序列号大于所述序列号阈值的特征提取网络，不用于提取帧特征的上下文信息。7.根据权利要求1所述的方法，其特征在于，所述初始的节拍检测模型为时延神经网络
模型TDNN。8.一种节拍检测方法，其特征在于，所述方法包括：获取待处理的音频片段，以及所述音频片段的帧特征序列；所述帧特征序列包括，音频片段中各个音频帧的帧特征；将所述音频片段...

【专利技术属性】
技术研发人员：王壹丰，
申请(专利权)人：北京小米移动软件有限公司北京小米松果电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人