一种哼唱识别方法、设备及介质技术

技术编号：38078412 阅读：15 留言：0更新日期：2023-07-06 08:46

本申请公开了一种哼唱识别方法、设备及介质，包括：利用特征提取模型提取待识别哼唱音频的第一音频特征；特征提取模型为利用哼唱音频样本以及标签训练得到的模型，标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列，所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征；将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配；所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征，所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征；若匹配到第二音频特征，则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。能够提升哼唱识别的准确度。准确度。准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种哼唱识别方法、设备及介质

[0001]本申请涉及哼唱识别
，特别涉及一种哼唱识别方法、设备及介质。

技术介绍

[0002]随着音乐多媒体产业的数字化发展，日益增加的在线流媒体音乐服务资源使得用户耗费大量的时间和精力去搜寻自己喜爱的歌曲，有时，用户可能会忘记歌曲的具体信息并且也没有存档相应的音乐，但仍然希望根据记忆中模糊的旋律来进行检索，哼唱识别可以用于解决此问题。目前，在哼唱识别中，通常是从用户的哼唱音频中提取出音高序列，将该音高序列和曲谱库中已经存在的曲谱进行匹配，从曲谱库中检索出与该音高序列模式一致的曲谱。但这种方式仅利用了哼唱音频的音高信息进行匹配，损失了较多音频信息，导致哼唱识别准确度不高。综上，在实现本专利技术的过程中，专利技术人至少发现现有技术中存在哼唱识别准确度不高的问题。

技术实现思路

[0003]有鉴于此，本申请的目的在于提供一种哼唱识别方法、设备及介质，能够提升哼唱识别的准确度。其具体方案如下：
[0004]第一方面，本申请公开了一种哼唱识别方法，包括：
[0005]利用特征提取模型提取待识别哼唱音频的第一音频特征；其中，所述特征提取模型为利用哼唱音频样本以及标签训练得到的模型，所述标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列，并且，所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征；
[0006]将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配；其中，所述第二音频特征为将所述MIDI文件对应的音高序列输...

【技术保护点】

【技术特征摘要】
1.一种哼唱识别方法，其特征在于，包括：利用特征提取模型提取待识别哼唱音频的第一音频特征；其中，所述特征提取模型为利用哼唱音频样本以及标签训练得到的模型，所述标签为与哼唱音频样本匹配的MIDI样本文件对应的音高序列，并且，所述第一音频特征为所述特征提取模型中输出层的前一隐藏层输出的特征；将所述第一音频特征与曲谱库中MIDI文件对应的第二音频特征进行匹配；其中，所述第二音频特征为将所述MIDI文件对应的音高序列输入概率扩散模型得到的音频特征，并且，所述第二音频特征为所述概率扩散模型中输出层的前一隐藏层输出的特征；若匹配到第二音频特征，则基于该第二音频特征确定所述待识别哼唱音频的哼唱识别结果。2.根据权利要求1所述的哼唱识别方法，其特征在于，所述特征提取模型的训练过程为：获取第一训练样本集；其中，所述第一训练样本集包括哼唱音频样本以及哼唱音频样本对应的标签；将哼唱音频样本输入第一初始模型，得到所述第一初始模型的输出结果；基于所述输出结果和哼唱音频样本对应的标签确定训练损失；基于所述训练损失对所述第一初始模型进行参数调节；当所述训练损失小于第一预设损失阈值，则将参数调节后的第一初始模型确定为特征提取模型。3.根据权利要求2所述的哼唱识别方法，其特征在于，所述获取第一训练样本集，包括：获取多个MIDI样本文件以及与每个所述MIDI样本文件匹配的哼唱音频样本；确定每个所述MIDI样本文件对应的音高序列；将每个所述MIDI样本文件对应的音高序列确定为与该MIDI样本文件匹配的哼唱音频样本的标签；将所有所述哼唱音频样本以及所述哼唱音频样本对应的标签构成的集合确定为第一训练样本集。4.根据权利要求3所述的哼唱识别方法，其特征在于，所述确定每个所述MIDI样本文件对应的音高序列，包括：基于每个MIDI样本文件生成音高序列，直接将该音高序列确定为该MIDI样本文件对应的音高序列，或对音高序列添加噪声，得到该MIDI样本文件对应的音高序列。5.根据权利要求4所述的哼唱识别方法，其特征在于，所述基于每个MIDI样本文件生成音高序列，包括：基于每...

【专利技术属性】
技术研发人员：苏斌，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人