一种音频识别方法、设备及介质技术

技术编号:27588640 阅读:22 留言:0更新日期:2021-03-10 10:05
本申请公开了一种音频识别方法、设备及介质,包括:对目标歌手的歌曲作品中的歌唱片段进行截取以得到第一歌唱片段集;从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集;通过提取所述第二歌唱片段集中每一所述歌唱片段的音频特征,获取每一所述歌唱片段各自对应的通道特征,以得到多通道特征;基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对;利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型;当获取到待识别歌曲,则利用所述训练后模型识别出所述待识别歌曲对应的歌手。能够提升模型训练效率以及歌手识别的鲁棒性。棒性。棒性。

【技术实现步骤摘要】
一种音频识别方法、设备及介质


[0001]本申请涉及音频识别
,特别涉及一种音频识别方法、设备及介质。

技术介绍

[0002]当前,基于度量学习的歌手识别通常是截取歌曲作品中一段较长的歌曲片段,然后抽取歌曲片段的mel(梅尔)频谱等特征,然后将抽取到的特征输入度量学习网络进行训练学习,得到训练后模型以进行歌手识别,然而基于歌曲作品中一段较长的歌曲片段进行训练学习,一方面用于训练的特征的时间维尺寸远大于频率维尺寸,导致卷积效率降低,从而影响了模型训练效率,另一方面,得到的训练后模型在歌手识别的过程中,对歌曲作品不同片段的差异缺乏鲁棒性。综上,在实现本专利技术过程中,专利技术人发现现有技术中至少存在模型训练效率较低以及歌手识别缺乏鲁棒性的问题。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种音频识别方法、设备及介质,能够提升模型训练效率以及歌手识别的鲁棒性。其具体方案如下:
[0004]第一方面,本申请公开了一种音频识别方法,包括:
[0005]对目标歌手的歌曲作品中的歌唱片段进行截取以得到第一歌唱片段集;
[0006]从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集;
[0007]通过提取所述第二歌唱片段集中每一所述歌唱片段的音频特征,获取每一所述歌唱片段各自对应的通道特征,以得到多通道特征;
[0008]基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对;
[0009]利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型;
[0010]当获取到待识别歌曲,则利用所述训练后模型识别出所述待识别歌曲对应的歌手。
[0011]可选的,所述基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对,包括:
[0012]利用同一所述目标歌手的不同的所述多通道特征构造对应的第一正样本对,以及重新排列所述多通道特征中所述通道特征的顺序以得到通道重排特征,将所述通道重排特征与对应的所述多通道特征构造为第二正样本对;
[0013]利用不同所述目标歌手的所述多通道特征构造对应的所述负样本对。
[0014]可选的,所述基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对,包括:
[0015]预先构建所述第一正样本对、所述第二正样本对和所述负样本对;
[0016]相应的,所述利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型,包括:
[0017]将所述第一正样本对、所述第二正样本对和所述负样本对输入预先构建的所述度量学习网络模型进行训练,得到训练后模型。
[0018]可选的,所述基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对;利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型,包括:
[0019]预先构建所述第一正样本对和所述负样本对;
[0020]将所述第一正样本对和所述负样本对输入预先构建的所述度量学习网络模型进行训练;
[0021]在训练过程中,当达到利用所述第二正样本对进行训练的预设条件,则从所述第一正样本对或所述负样本对中抽取出任一所述多通道特征;
[0022]重新排列该多通道特征中所述通道特征的顺序以得到通道重排特征,将该通道重排特征与对应的所述多通道特征构造为所述第二正样本对;
[0023]利用当前构造出的所述第二正样本对所述度量学习网络模型进行训练。
[0024]可选的,所述从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集,包括:
[0025]基于预设的映射关系,确定与所述第一歌唱片段集中所述歌唱片段对应的第一特征长度;
[0026]将对应于同一所述第一特征长度的所述歌唱片段划分至同一歌唱片段子集;
[0027]随机确定出任一所述歌唱片段子集;
[0028]从确定出的所述歌唱片段子集中随机筛选出预设数量个所述歌唱片段,或从确定出的所述歌唱片段子集以及所述第一特征长度高于该歌唱片段子集的歌唱片段子集中随机筛选出预设数量个所述歌唱片段,以得到所述第二歌唱片段集;
[0029]相应的,所述通过提取所述第二歌唱片段集中每一所述歌唱片段的音频特征,获取每一所述歌唱片段各自对应的通道特征,以得到多通道特征,包括:
[0030]提取所述第二歌唱片段集中每一所述歌唱片段的音频特征;
[0031]将每一所述音频特征的长度均处理为当前所述歌唱片段子集对应的所述第一特征长度,以得到每一所述歌唱片段各自对应的第一通道特征;
[0032]将所述第一通道特征随机排列,构造为对应的所述多通道特征。
[0033]可选的,所述从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集,包括:
[0034]直接从所述第一歌唱片段集中随机筛选出预设数量个所述歌唱片段以得到所述第二歌唱片段集;
[0035]相应的,所述通过提取所述第二歌唱片段集中每一所述歌唱片段的音频特征,获取每一所述歌唱片段各自对应的通道特征,以得到多通道特征,包括:
[0036]提取所述第二歌唱片段集中每一所述歌唱片段的音频特征;
[0037]将每一所述音频特征的长度均处理为第二特征长度,以得到每一所述歌唱片段各自对应的第二通道特征;
[0038]将所述第二通道特征随机排列,构造为对应的所述多通道特征。
[0039]可选的,所述将每一所述音频特征的长度均处理为第二特征长度之前,还包括:
[0040]确定出当前所述目标歌手的所述第一歌唱片段集的平均片段长度,并将该平均片段长度确定为所述第二特征长度;
[0041]或,确定出全部所述目标歌手的所述第一歌唱片段集的平均片段长度,将该平均片段长度确定为所述第二特征长度。
[0042]可选的,所述从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集之前,还包括:
[0043]从所述第一歌唱片段集中确定出第一预设比例的第一目标歌唱片段,所述第一目标片段的长度大于所述第一歌唱片段集中的其它片段;
[0044]从所述第一歌唱片段集中确定出第二预设比例的第二目标歌唱片段,所述第二目标片段的长度小于所述歌唱片段集中的其它片段;
[0045]将所述第一目标歌唱片段和所述第二目标歌唱片段从所述第一歌唱片段集中删除。
[0046]可选的,所述当获取到待识别歌曲,则利用所述训练后模型识别出所述待识别歌曲对应的歌手,包括:
[0047]当获取到待识别歌曲,则利用所述训练后模型抽取所述待识别歌曲的歌手特征以得到目标歌手特征;
[0048]利用所述目标歌手特征与预先构建的歌手特征库进行匹配,以确定出所述目标歌手特征对应的歌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频识别方法,其特征在于,包括:对目标歌手的歌曲作品中的歌唱片段进行截取以得到第一歌唱片段集;从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集;通过提取所述第二歌唱片段集中每一所述歌唱片段的音频特征,获取每一所述歌唱片段各自对应的通道特征,以得到多通道特征;基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对;利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型;当获取到待识别歌曲,则利用所述训练后模型识别出所述待识别歌曲对应的歌手。2.根据权利要求1所述的音频识别方法,其特征在于,所述基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对,包括:利用同一所述目标歌手的不同的所述多通道特征构造对应的第一正样本对,以及重新排列所述多通道特征中所述通道特征的顺序以得到通道重排特征,将所述通道重排特征与对应的所述多通道特征构造为第二正样本对;利用不同所述目标歌手的所述多通道特征构造对应的所述负样本对。3.根据权利要求2所述的音频识别方法,其特征在于,所述基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对,包括:预先构建所述第一正样本对、所述第二正样本对和所述负样本对;相应的,所述利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型,包括:将所述第一正样本对、所述第二正样本对和所述负样本对输入预先构建的所述度量学习网络模型进行训练,得到训练后模型。4.根据权利要求2所述的音频识别方法,其特征在于,所述基于所述多通道特征构造同一所述目标歌手对应的正样本对以及不同所述目标歌手对应的负样本对;利用所述正样本对和所述负样本对,对预先构建的度量学习网络模型进行训练以得到训练后模型,包括:预先构建所述第一正样本对和所述负样本对;将所述第一正样本对和所述负样本对输入预先构建的所述度量学习网络模型进行训练;在训练过程中,当达到利用所述第二正样本对进行训练的预设条件,则从所述第一正样本对或所述负样本对中抽取出任一所述多通道特征;重新排列该多通道特征中所述通道特征的顺序以得到通道重排特征,将该通道重排特征与对应的所述多通道特征构造为所述第二正样本对;利用当前构造出的所述第二正样本对所述度量学习网络模型进行训练。5.根据权利要求1所述的音频识别方法,其特征在于,所述从所述第一歌唱片段集中筛选出预设数量个所述歌唱片段以得到第二歌唱片段集,包括:基于预设的映射关系,确定与所述第一歌唱片段集中所述歌唱片段对应的第一特征长度;将对应于同一所述第一特征长度的所述歌唱片段划分至同一歌唱片段子集;
随机确定出任一所述歌唱片段子集;从确定出的所述歌唱片段子集中随机筛选出预设数量个所述歌唱片段,或从确定出的所述歌唱片段子集以及所述第一特征长度高于该歌唱片段子集的歌唱片段子集中随机筛选出预设数量个所述歌唱片段,以得到所述第二歌唱片段集;相应的,所述通过提取所述第二歌唱片段集中每一所述歌唱片段的音频特征,获取每一所述歌唱片段各自对应的通道特征,以得到多通道特征,包括:提取所述第二歌...

【专利技术属性】
技术研发人员:王征韬
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1