一种哼唱识别方法、设备及介质技术

技术编号:38078412 阅读:15 留言:0更新日期:2023-07-06 08:46
本申请公开了一种哼唱识别方法、设备及介质,包括:利用特征提取模型提取待识别哼唱音频的第一音频特征;特征提取模型为利用哼唱音频样本以及标签训练得到的模型,标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列,所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征;将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配;所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征,所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征;若匹配到第二音频特征,则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。能够提升哼唱识别的准确度。准确度。准确度。

【技术实现步骤摘要】
一种哼唱识别方法、设备及介质


[0001]本申请涉及哼唱识别
,特别涉及一种哼唱识别方法、设备及介质。

技术介绍

[0002]随着音乐多媒体产业的数字化发展,日益增加的在线流媒体音乐服务资源使得用户耗费大量的时间和精力去搜寻自己喜爱的歌曲,有时,用户可能会忘记歌曲的具体信息并且也没有存档相应的音乐,但仍然希望根据记忆中模糊的旋律来进行检索,哼唱识别可以用于解决此问题。目前,在哼唱识别中,通常是从用户的哼唱音频中提取出音高序列,将该音高序列和曲谱库中已经存在的曲谱进行匹配,从曲谱库中检索出与该音高序列模式一致的曲谱。但这种方式仅利用了哼唱音频的音高信息进行匹配,损失了较多音频信息,导致哼唱识别准确度不高。综上,在实现本专利技术的过程中,专利技术人至少发现现有技术中存在哼唱识别准确度不高的问题。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种哼唱识别方法、设备及介质,能够提升哼唱识别的准确度。其具体方案如下:
[0004]第一方面,本申请公开了一种哼唱识别方法,包括:
[0005]利用特征提取模型提取待识别哼唱音频的第一音频特征;其中,所述特征提取模型为利用哼唱音频样本以及标签训练得到的模型,所述标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列,并且,所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征;
[0006]将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配;其中,所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征,并且,所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征;
[0007]若匹配到第二音频特征,则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。
[0008]可选的,所述特征提取模型的训练过程为:
[0009]获取第一训练样本集;其中,所述第一训练样本集包括哼唱音频样本以及哼唱音频样本对应的标签;
[0010]将哼唱音频样本输入第一初始模型,得到所述第一初始模型的输出结果;
[0011]基于所述输出结果和哼唱音频样本对应的标签确定训练损失;
[0012]基于所述训练损失对所述第一初始模型进行参数调节;
[0013]当所述训练损失小于第一预设损失阈值,则将参数调节后的第一初始模型确定为特征提取模型。
[0014]可选的,所述获取第一训练样本集,包括:
[0015]获取多个MIDI样本文件以及与每个所述MIDI样本文件匹配的哼唱音频样本;
[0016]确定每个所述MIDI样本文件对应的音高序列;
[0017]将每个所述MIDI样本文件对应的音高序列确定为与该MIDI样本文件匹配的哼唱音频样本的标签;
[0018]将所有所述哼唱音频样本以及所述哼唱音频样本对应的标签构成的集合确定为第一训练样本集。
[0019]可选的,所述确定每个所述MIDI样本文件对应的音高序列,包括:
[0020]基于每个MIDI样本文件生成音高序列,直接将该音高序列确定为该MIDI样本文件对应的音高序列,或对音高序列添加噪声,得到该MIDI样本文件对应的音高序列。
[0021]可选的,所述基于每个MIDI样本文件生成音高序列,包括:
[0022]基于每个MIDI样本文件生成音高时长序列;所述音高时长序列中每个元组所含元素为音高和该音高的时长;
[0023]基于所述时长将所述音高时长序列展开为音高序列,和/或,在所述音高时长序列中添加扰动信号,得到含扰动音高时长序列,将所述含扰动音高时长序列展开为音高序列。
[0024]可选的,所述概率扩散模型的训练过程包括:
[0025]获取第二训练样本集;所述第二训练样本集包括MIDI样本文件对应的音高序列;
[0026]利用所述第二训练样本集对第二初始模型进行训练,得到概率扩散模型;其中,在训练的过程中,MIDI样本文件对应的音高序列的标签信息为该音高序列本身。
[0027]可选的,所述将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配,包括:
[0028]将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征输入匹配模型,得到所述第一音频特征与第二音频特征之间的匹配度;
[0029]基于所述匹配度判断所述第一音频特征与所述第二音频特征是否匹配。
[0030]可选的,所述匹配模型的训练过程包括:
[0031]获取第三训练样本集;所述第三训练样本集包括多个三元特征组,每个所述三元特征组包括MIDI样本文件的第三音频特征、与MIDI样本文件匹配的哼唱音频样本的第四音频特征以及与MIDI样本文件不匹配的哼唱音频样本的第五音频特征;所述第三音频特征为利用所述概率扩散模型提取的特征,所述第四音频特征和所述第五音频特征均为利用所述特征提取模型提取的特征;
[0032]利用所述第三训练样本集对第三初始模型训练,并在训练的过程中计算三元组损失,当所述三元组损失小于第二预设损失阈值,得到匹配模型。
[0033]第二方面,本申请公开了一种电子设备,包括存储器和处理器,其中:
[0034]所述存储器,用于保存计算机程序;
[0035]所述处理器,用于执行所述计算机程序,以实现前述的哼唱识别方法。
[0036]第三方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的哼唱识别方法。
[0037]可见,本申请利用特征提取模型提取待识别哼唱音频的第一音频特征;其中,所述特征提取模型为利用哼唱音频样本以及标签训练得到的模型,所述标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列,并且,所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征;将所述第一音频特征与曲谱库中MIDI文件对应的第二音频
特征进行匹配;其中,所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征,所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征;若匹配到第二音频特征,则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。也即,本申请中,用于与待识别哼唱音频匹配的第二音频特征,是将所述MIDI文件对应的音高序列输入概率扩散模型,概率扩散模型中输出层的前一隐藏层输出的特征,是较高维度的特征,对于待识别哼唱音频,是特征提取模型中输出层的前一隐藏层输出的特征,并且,该特征提取模型在训练过程中采用的标签是MIDI文件对应的音高序列,这样,待识别哼唱音频的第一音频特征与MIDI文件的第二音频特征为同一个域的较高维度的特征,在匹配过程中保留了待识别哼唱音频中除了音高之外的信息,能够提升哼唱识别的准确度。
附图说明
[0038]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种哼唱识别方法,其特征在于,包括:利用特征提取模型提取待识别哼唱音频的第一音频特征;其中,所述特征提取模型为利用哼唱音频样本以及标签训练得到的模型,所述标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列,并且,所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征;将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配;其中,所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征,并且,所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征;若匹配到第二音频特征,则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。2.根据权利要求1所述的哼唱识别方法,其特征在于,所述特征提取模型的训练过程为:获取第一训练样本集;其中,所述第一训练样本集包括哼唱音频样本以及哼唱音频样本对应的标签;将哼唱音频样本输入第一初始模型,得到所述第一初始模型的输出结果;基于所述输出结果和哼唱音频样本对应的标签确定训练损失;基于所述训练损失对所述第一初始模型进行参数调节;当所述训练损失小于第一预设损失阈值,则将参数调节后的第一初始模型确定为特征提取模型。3.根据权利要求2所述的哼唱识别方法,其特征在于,所述获取第一训练样本集,包括:获取多个MIDI样本文件以及与每个所述MIDI样本文件匹配的哼唱音频样本;确定每个所述MIDI样本文件对应的音高序列;将每个所述MIDI样本文件对应的音高序列确定为与该MIDI样本文件匹配的哼唱音频样本的标签;将所有所述哼唱音频样本以及所述哼唱音频样本对应的标签构成的集合确定为第一训练样本集。4.根据权利要求3所述的哼唱识别方法,其特征在于,所述确定每个所述MIDI样本文件对应的音高序列,包括:基于每个MIDI样本文件生成音高序列,直接将该音高序列确定为该MIDI样本文件对应的音高序列,或对音高序列添加噪声,得到该MIDI样本文件对应的音高序列。5.根据权利要求4所述的哼唱识别方法,其特征在于,所述基于每个MIDI样本文件生成音高序列,包括:基于每...

【专利技术属性】
技术研发人员:苏斌
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1