【技术实现步骤摘要】
基于深度学习的端到端乐谱音符识别方法
本专利技术属于光学乐谱识别领域,是一种基于深度学习的端到端神经网络识别方法,可应用于乐谱音符识别。
技术介绍
光学乐谱识别是光学字符识别在音乐上的应用,用于将乐谱识别为可编辑或可播放的形式,如MIDI(用于播放)和MusicXML(用于页面布局)。相对于乐谱其他符号,音符所占比例极高,其用于记录音高和时值,具有重要的语义信息。因此,音符识别是乐谱识别的核心与关键。音符形态千变万化,其多样性和多态性特点决定了音符难以识别。传统音符识别方法需要预先删除五线谱,之后抽取基元符号,通过组合基元符号完成音符识别,整个过程十分冗杂,每个步骤都会影响音符识别精度。近年来深度学习在计算机视觉领域的突破使得光学乐谱识别(OMR)处理方式发生巨大改变,越来越多的研究集中于用深度学习解决OMR,研究方法大致分为两大类:目标检测和序列识别。但目前基于深度学习的目标检测方法无法识别音符的音高和时值,基于序列识别方法在处理多声部乐谱时存在识别精度低等问题。
技术实现思路
本专利技术的目的 ...
【技术保护点】
1.基于深度学习的端到端乐谱音符识别方法,其特征在于:该方法一共分为三步,/n(1)数据预处理:需要从MuseScore中下载对应的数据集,重新编码音高和时值标签;/n(2)数据增强:对重新编码后的乐谱数据进行数据增强,本专利技术提出了4种不同的增强方法;/n(3)端到端模型:应用于端到端乐谱音符识别的深度卷积神经网络模型,将增强后的数据输入的模型,模型的输出为音符时值和音高。/n
【技术特征摘要】
1.基于深度学习的端到端乐谱音符识别方法,其特征在于:该方法一共分为三步,
(1)数据预处理:需要从MuseScore中下载对应的数据集,重新编码音高和时值标签;
(2)数据增强:对重新编码后的乐谱数据进行数据增强,本发明提出了4种不同的增强方法;
(3)端到端模型:应用于端到端乐谱音符识别的深度卷积神经网络模型,将增强后的数据输入的模型,模型的输出为音符时值和音高。
2.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:从选取MusicXML文件的语料库中,创建乐谱图像和相应音符注释的数据集;使用MuseScore将MusicXML文件转换为乐谱图像,乐谱图像对应的标签用音高、时值和音符边界框位置组成的向量表示;每个音符用两个值表示:音高和时值;音高被重新编码为垂直距离,即音符与五线谱垂直轴上的距离;音符的音高值由音符到五线谱的垂直距离而定,边上的数字表示音高的标签,红色音符的音高标签为5,黄色音符的标签为-2;Note显示不同时值音符对应的形态,Duration表示音符的时值,Label表示编码后的的时值标签;时值以四分音符为一个单位;乐谱对应标签的时值和音高按照上述编码。
3.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:
计算机生成的乐谱图像中不存在噪声和变化,训练出来的模型不具备泛化性;为了使模型对较低质量的输入和不同类型的乐谱图像具有鲁棒性...
【专利技术属性】
技术研发人员:黄志清,贾翔,王师凯,张煜森,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。