【技术实现步骤摘要】
一种基于深度学习的实时音乐转录与曲谱匹配方法
本专利技术涉及计算机领域,尤其涉及一种基于深度学习的实时音乐转录与曲谱匹配方法。
技术介绍
随着互联网发展导致的数据累积、硬件设备的不断完善以及深度学习技术的深入研究,凭借深度学习方法的强大拟合泛化能力,在各领域都取得了超越传统方法的成就。音乐转录领域最常见的传统方法是非负矩阵分解,该方法不需要基于先验知识就能完成转录,但是要求音乐片段中的音符必须具有静态和声特征,也就是说音符必须具有固定的谐波格式。这在实际中几乎是不可能的,嘈杂的环境、乐器调音的细微不同、弹奏的声音高低、泛音识别等等问题,给这项技术在实际中使用带来了困难。归根结底的原因是非负矩阵分解表达能力不够强,没法处理实际场景中的复杂音乐特征。基于深度学习模型的最主要的特点就是“万能近似定理”:由于神经网络具有至少一个非线性隐藏层,那么只要给予网络足够数量的隐藏单元,它就可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的函数。因此基于深度学习的识别方法可以在一定程度解决上述问题,大量的不 ...
【技术保护点】
1.一种基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,包括以下步骤:/nS1:获取音频片段的音符时间标签数据及音高标签数据;/nS2:处理音频片段中的音频数据及噪音数据,得到音频的频域数据和噪音的频域数据;/nS3:将所述音符时间标签数据、音频的频域数据和噪音的频域数据输入第一卷积神经网络并训练得到第一模型;将所述音高标签数据和音频的频域数据输入第二卷积神经网络训练得到第二模型;/nS4:将第一模型和第二模型的训练结果输入到隐式马尔科夫模型进行曲谱匹配,获得正确音符集合及初步错误区域;/nS5:针对初步错误区域采用Merged-Output隐式马尔科夫模型进行重校准 ...
【技术特征摘要】
1.一种基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,包括以下步骤:
S1:获取音频片段的音符时间标签数据及音高标签数据;
S2:处理音频片段中的音频数据及噪音数据,得到音频的频域数据和噪音的频域数据;
S3:将所述音符时间标签数据、音频的频域数据和噪音的频域数据输入第一卷积神经网络并训练得到第一模型;将所述音高标签数据和音频的频域数据输入第二卷积神经网络训练得到第二模型;
S4:将第一模型和第二模型的训练结果输入到隐式马尔科夫模型进行曲谱匹配,获得正确音符集合及初步错误区域;
S5:针对初步错误区域采用Merged-Output隐式马尔科夫模型进行重校准匹配,获得匹配结果。
2.根据权利要求1所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述步骤S2中采用常量Q变换处理音频片段。
3.根据权利要求1所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述第一模型用于识别音符的出现时间并判断当前音频为音乐还是噪声,所述第二模型用于识别出现音符的音高。
4.根据权利要求3所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述第一模型采用卷积神经网络,以交叉熵函数为目标函数,共有两个输出,输出一的最后一层采用sigmoid函数,用于输出长度为t的置信度向量以确定出现音符的时间点,其中t为音频转换后频谱的宽度,当置信度超过预先设置的阈值,则判断为音符出现;输出二的最后一层采用softmax函数,用于输出二分类结果,以判断当前音频是音乐还是噪音。
5.根据权利要求3所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,第二模型采用卷积神经网络,以交叉熵函数为目标函数,其最后一层采用sigmoid函数,用于输出长度为m的置信度向量,以判断哪些音出现的可能性...
【专利技术属性】
技术研发人员:丁小龙,
申请(专利权)人:杭州贝哆蜂智能有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。