当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于CRNN的端到端光学乐谱识别方法及系统技术方案

技术编号:38625429 阅读:17 留言:0更新日期:2023-08-31 18:27
本发明专利技术提供了乐谱识别技术领域的一种基于CRNN的端到端光学乐谱识别方法及系统,方法包括如下步骤:步骤S10、获取大量的乐谱图片以及对应的文本文件,基于各所述乐谱图片以及文本文件构建乐谱数据集;步骤S20、基于卷积神经网络、循环神经网络以及CTC算法构建端到端的乐谱识别模型;步骤S30、利用所述乐谱数据集对乐谱识别模型进行训练;步骤S40、利用训练后的所述乐谱识别模型进行乐谱识别。本发明专利技术的优点在于:极大的提升了光学乐谱识别的泛化性。极大的提升了光学乐谱识别的泛化性。极大的提升了光学乐谱识别的泛化性。

【技术实现步骤摘要】
一种基于CRNN的端到端光学乐谱识别方法及系统


[0001]本专利技术涉及乐谱识别
,特别指一种基于CRNN的端到端光学乐谱识别方法及系统。

技术介绍

[0002]乐谱是一种用符号来记录音乐的方法,对于音乐的初学者来说,如何读懂乐谱至关重要,如果不能掌握乐谱,也就不能演奏出美妙的音乐,因此产生了识别乐谱以进行辅助教学的需求,类似英语点读机识别英文单词。
[0003]然而,传统的乐谱识别方法具有针对性,例如只能识别钢琴乐谱或者简谱,没有一种普适性的识别方法适用于所有类型的乐谱,给乐谱的识别带来不便。
[0004]因此,如何提供一种基于CRNN的端到端光学乐谱识别方法及系统,实现提升光学乐谱识别的泛化性,成为一个亟待解决的技术问题。

技术实现思路

[0005]本专利技术要解决的技术问题,在于提供一种基于CRNN的端到端光学乐谱识别方法及系统,实现提升光学乐谱识别的泛化性。
[0006]第一方面,本专利技术提供了一种基于CRNN的端到端光学乐谱识别方法,包括如下步骤:
[0007]步骤S10、获取大量的乐谱图片以及对应的文本文件,基于各所述乐谱图片以及文本文件构建乐谱数据集;
[0008]步骤S20、基于卷积神经网络、循环神经网络以及CTC算法构建端到端的乐谱识别模型;
[0009]步骤S30、利用所述乐谱数据集对乐谱识别模型进行训练;
[0010]步骤S40、利用训练后的所述乐谱识别模型进行乐谱识别。
[0011]进一步地,所述步骤S10中,所述文本文件包括语义字典以及不可知义字典;所述语义字典用于映射乐谱图片中有乐符意义的符号;所述不可知义字典用于映射乐谱图片中无乐符意义的符号。
[0012]进一步地,所述步骤S20中,所述卷积神经网络用于对输入的乐谱图片进行特征信息提取,以得到一个二维矩阵,并利用平均池化对所述二维矩阵进行降维处理后传输给循环神经网络;
[0013]所述循环神经网络用于对卷积神经网络输入的数据进行建模,以捕捉其中的时序信息,并使用全连接层将LSTM的输出转换为一个与语义字典或者不可知义字典大小相同的向量,以表示每个符号的得分;
[0014]所述CTC算法用于对全连接层的输出进行解码,以输出语义序列或者不可知义序列。
[0015]进一步地,所述步骤S30具体为:
[0016]设定一乐谱识别模型的损失函数、一损失阈值以及一准确率阈值,基于预设的比例将所述乐谱数据集划分为训练集和验证集;
[0017]利用所述训练集对乐谱识别模型进行训练,直至所述损失函数的损失值小于损失阈值;
[0018]利用所述验证集对训练后的乐谱识别模型进行验证,判断识别准确率是否大于所述准确率阈值,若是,则完成训练;若否,则扩充所述训练集继续训练。
[0019]进一步地,所述步骤S40具体为:
[0020]将待识别乐谱图片输入训练后的所述乐谱识别模型,输出语义序列或者不可知义序列,以完成所述待识别乐谱图片的乐谱识别。
[0021]第二方面,本专利技术提供了一种基于CRNN的端到端光学乐谱识别系统,包括如下模块:
[0022]乐谱数据集构建模块,用于获取大量的乐谱图片以及对应的文本文件,基于各所述乐谱图片以及文本文件构建乐谱数据集;
[0023]乐谱识别模型构建模块,用于基于卷积神经网络、循环神经网络以及CTC算法构建端到端的乐谱识别模型;
[0024]乐谱识别模型训练模块,用于利用所述乐谱数据集对乐谱识别模型进行训练;
[0025]乐谱识别模块,用于利用训练后的所述乐谱识别模型进行乐谱识别。
[0026]进一步地,所述乐谱数据集构建模块中,所述文本文件包括语义字典以及不可知义字典;所述语义字典用于映射乐谱图片中有乐符意义的符号;所述不可知义字典用于映射乐谱图片中无乐符意义的符号。
[0027]进一步地,所述乐谱识别模型构建模块中,所述卷积神经网络用于对输入的乐谱图片进行特征信息提取,以得到一个二维矩阵,并利用平均池化对所述二维矩阵进行降维处理后传输给循环神经网络;
[0028]所述循环神经网络用于对卷积神经网络输入的数据进行建模,以捕捉其中的时序信息,并使用全连接层将LSTM的输出转换为一个与语义字典或者不可知义字典大小相同的向量,以表示每个符号的得分;
[0029]所述CTC算法用于对全连接层的输出进行解码,以输出语义序列或者不可知义序列。
[0030]进一步地,所述乐谱识别模型训练模块具体用于:
[0031]设定一乐谱识别模型的损失函数、一损失阈值以及一准确率阈值,基于预设的比例将所述乐谱数据集划分为训练集和验证集;
[0032]利用所述训练集对乐谱识别模型进行训练,直至所述损失函数的损失值小于损失阈值;
[0033]利用所述验证集对训练后的乐谱识别模型进行验证,判断识别准确率是否大于所述准确率阈值,若是,则完成训练;若否,则扩充所述训练集继续训练。
[0034]进一步地,所述乐谱识别模块具体用于:
[0035]将待识别乐谱图片输入训练后的所述乐谱识别模型,输出语义序列或者不可知义序列,以完成所述待识别乐谱图片的乐谱识别。
[0036]本专利技术的优点在于:
[0037]通过获取大量的乐谱图片以及对应的文本文件,基于各乐谱图片以及文本文件构建乐谱数据集;利用乐谱数据集对基于卷积神经网络、循环神经网络以及CTC算法构建的乐谱识别模型进行训练,再利用训练后的乐谱识别模型进行乐谱识别;由于乐谱图片涵盖了不同类型的乐谱,而文本文件包含了用于映射乐谱图片中有乐符意义的符号的语义字典以及用于映射乐谱图片中无乐符意义的符号的不可知义字典,使得训练后的乐谱识别模型能对不同类型乐谱中的各种符号进行识别,最终极大的提升了光学乐谱识别的泛化性。
附图说明
[0038]下面参照附图结合实施例对本专利技术作进一步的说明。
[0039]图1是本专利技术一种基于CRNN的端到端光学乐谱识别方法的流程图。
[0040]图2是本专利技术一种基于CRNN的端到端光学乐谱识别系统的结构示意图。
[0041]图3是本专利技术乐谱识别模型的结构示意图。
具体实施方式
[0042]请参照图1至图3所示,本专利技术一种基于CRNN的端到端光学乐谱识别方法的较佳实施例,包括如下步骤:
[0043]步骤S10、获取大量的不同类型乐谱的乐谱图片以及对应的文本文件,基于各所述乐谱图片以及文本文件构建乐谱数据集;具体实施时,可直接使用现有的PriMus数据集作为所述乐谱数据集;
[0044]步骤S20、基于卷积神经网络(CNN)、循环神经网络(RNN)以及CTC算法(连接时序分类)构建端到端的乐谱识别模型;
[0045]步骤S30、利用所述乐谱数据集对乐谱识别模型进行训练;
[0046]步骤S40、利用训练后的所述乐谱识别模型进行乐谱识别。
[0047]所述步骤S10中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CRNN的端到端光学乐谱识别方法,其特征在于:包括如下步骤:步骤S10、获取大量的乐谱图片以及对应的文本文件,基于各所述乐谱图片以及文本文件构建乐谱数据集;步骤S20、基于卷积神经网络、循环神经网络以及CTC算法构建端到端的乐谱识别模型;步骤S30、利用所述乐谱数据集对乐谱识别模型进行训练;步骤S40、利用训练后的所述乐谱识别模型进行乐谱识别。2.如权利要求1所述的一种基于CRNN的端到端光学乐谱识别方法,其特征在于:所述步骤S10中,所述文本文件包括语义字典以及不可知义字典;所述语义字典用于映射乐谱图片中有乐符意义的符号;所述不可知义字典用于映射乐谱图片中无乐符意义的符号。3.如权利要求1所述的一种基于CRNN的端到端光学乐谱识别方法,其特征在于:所述步骤S20中,所述卷积神经网络用于对输入的乐谱图片进行特征信息提取,以得到一个二维矩阵,并利用平均池化对所述二维矩阵进行降维处理后传输给循环神经网络;所述循环神经网络用于对卷积神经网络输入的数据进行建模,以捕捉其中的时序信息,并使用全连接层将LSTM的输出转换为一个与语义字典或者不可知义字典大小相同的向量,以表示每个符号的得分;所述CTC算法用于对全连接层的输出进行解码,以输出语义序列或者不可知义序列。4.如权利要求1所述的一种基于CRNN的端到端光学乐谱识别方法,其特征在于:所述步骤S30具体为:设定一乐谱识别模型的损失函数、一损失阈值以及一准确率阈值,基于预设的比例将所述乐谱数据集划分为训练集和验证集;利用所述训练集对乐谱识别模型进行训练,直至所述损失函数的损失值小于损失阈值;利用所述验证集对训练后的乐谱识别模型进行验证,判断识别准确率是否大于所述准确率阈值,若是,则完成训练;若否,则扩充所述训练集继续训练。5.如权利要求1所述的一种基于CRNN的端到端光学乐谱识别方法,其特征在于:所述步骤S40具体为:将待识别乐谱图片输入训练后的所述乐谱识别模型,输出语义序列或者不可知义序列,以完成所述待识别乐谱图片的乐谱识别。6.一种基于CRNN的端到端光学乐谱识别系统,其特征在...

【专利技术属性】
技术研发人员:姚俊峰单子豪王钰菲
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1