图像识别方法、模型训练方法、介质、装置及计算设备制造方法及图纸

技术编号:36405001 阅读:78 留言:0更新日期:2023-01-18 10:13
本公开的实施方式提供了一种图像识别方法、模型训练方法、介质、装置及计算设备。该图像识别方法包括:计算设备通过获取待识别乐谱图像,将待识别乐谱图像输入音轨识别模型进行音轨识别,获取识别得到的多个单音轨乐谱区域。其中,音轨识别模型是根据多个样本乐谱图像训练得到的、用于识别输入的乐谱图像中的多个单音轨乐谱区域的模型,每个样本乐谱图像包括音轨标注信息和干扰标注信息,音轨标注信息用于说明样本乐谱图像中每行乐谱对应的音轨数,干扰标注信息用于标注样本乐谱图像中非乐谱部分的干扰信息区域。通过音轨识别模型进行音轨识别,本公开的方法显著地提高了识别精度。度。度。

【技术实现步骤摘要】
图像识别方法、模型训练方法、介质、装置及计算设备


[0001]本公开的实施方式涉及图像识别领域,更具体地,本公开的实施方式涉及图像识别方法、模型训练方法、介质、装置及计算设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]乐谱是一种以印刷或手写制作,用符号来记录音乐的方法,用户可以根据乐谱中记载的符号来唱歌或演奏乐器。对于乐器初学者来说,乐谱的正确认识和理解是至关重要的。因此,产生了基于乐谱识别来辅助初学者进行乐谱理解和跟踪弹奏的需求。其中,乐谱图像版面分析是乐谱识别中的重要组成部分。
[0004]目前,乐谱图像版面分析主要是通过对拍摄得到的乐谱图像进行去噪,增强,二值化处理,之后根据处理后的图像中每个像素点的灰度值,确定出处理后的图像中的乐谱描述区,以达到分析的目的。然而,现有技术容易将非乐谱部分误识别为乐谱,存在识别精度较低的问题。

技术实现思路

[0005]本公开提供一种图像识别方法、模型训练方法、介质、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,包括:获取待识别乐谱图像;将所述待识别乐谱图像输入音轨识别模型进行音轨识别,获取识别得到的多个单音轨乐谱区域;其中,所述音轨识别模型是根据多个样本乐谱图像训练得到的、用于识别输入的乐谱图像中多个单音轨乐谱区域的模型,每个样本乐谱图像包括音轨标注信息和干扰标注信息,所述音轨标注信息用于说明所述样本乐谱图像中每行乐谱对应的音轨数,所述干扰标注信息用于标注所述样本乐谱图像中非乐谱部分的干扰信息区域。2.根据权利要求1所述的方法,所述将所述待识别乐谱图像输入音轨识别模型进行音轨识别,获取识别得到的多个单音轨乐谱区域,包括:获取所述待识别乐谱图像的二值掩码;获取所述待识别乐谱图像中每行乐谱对应的音轨数;根据所述二值掩码以及所述音轨数,获取所述乐谱图像中的多个单音轨乐谱区域。3.根据权利要求2所述的方法,所述获取所述待识别乐谱图像中每行乐谱对应的音轨数,包括:抽取所述待识别乐谱图像的多个特征层;针对每一特征层,将所述特征层与上一层的处理结果进行向量拼接,将拼接得到的第一矩阵进行卷积处理,得到所述特征层的处理结果;根据最后一层的处理结果,确定所述待识别乐谱图像中每行乐谱对应的音轨数。4.根据权利要求3所述的方法,所述针对每一特征层,将所述特征层与上一层的处理结果进行向量拼接,将拼接得到的第一矩阵进行卷积处理,得到所述特征层的处理结果,包括:针对每一特征层,对所述特征层进行裁剪,保留所述特征层的预设区域中的预设数量列,获取裁剪后的特征层;针对每一特征层,对裁剪后的特征层与上一层的处理结果进行向量拼接,并将拼接得到的第二矩阵进行卷积处理,得到所述特征层的处理结果。5.根据权利要求4所述的方法,所述根据最后一层的处理结果,确定所述待识别乐谱图像中每行乐谱对应的音轨数,包括:根据最后一层的处理结果,通过二分类模块判断所述待识别乐谱图像中每行乐谱对应的音轨数为单音轨还是多音轨,所述二分类模块为所述音轨识别模型中的模块;若为多音轨,则将所述二值掩码对应的二值掩码矩阵进行裁剪,保留所述二值掩码矩阵的预设区域中的预设数量列,获取裁剪后的二值掩码矩阵;将所述最后一层的处理结果与所述裁剪后的二值掩码矩阵进行拼接处理,并将拼接得到的第三矩阵进行转置处理,获取转置后的矩阵;根据循环神经网络RNN预测模块对转置后的矩阵进行处理,获取所述待识别乐谱图像中每行乐谱对应的音轨数,所述RNN预测模块为所述音轨识别模型中的模块。6.根据权利要求2

5任一项所述的方法,所述根据所述二值掩码以及所述音轨数,获取所述乐谱图像中的多个单音轨乐谱区域,包括:将所述二值掩码中每个像素的二值掩码值在水平方向上进行累加,获取多个二值掩码
累加和,所述水平方向为与音轨平行的方向;根据所述音轨数,将所述二值掩码中大于预设二值掩码值的二值掩码累加和所处的水平区域确定为音轨区域;根据所述音轨数和所述音轨区域,从所述待识别乐谱图像中确定出各音轨区域对应的单音轨乐谱区域。7.根据权利要求6所述的方法,所述根据所述音轨数和所述音轨区域,从所述音轨区域抽取所述待识别乐谱图像中对应的多个单音轨乐谱区域,包括:在所述音轨数为多音轨时,对所述二值掩码中所述音轨区域内的二值掩码累加和进行聚类处理,聚类出与所述音轨数相同数量个聚类中心;针对每一聚类中心,在所述二值掩码的垂直方向上确定出与所述聚类中心距离为预设长度的两个边界线,所述垂直方向为与音轨垂直的方向;针对每一聚类中心,根据所述两个边界线,获取所述二值掩码中所述聚类中心对应的子音轨区域;根据各聚类中心对应的子音轨区域,从所述待识别乐谱图像中确定出各子音轨区域对应的单音轨乐谱区域。8.一种模型训练方法,包括:获取多个样本乐谱图像,每个样本乐谱图像包括音轨标注信息和干扰标注信息,所述音轨标注信息用于说明所述样本乐谱图像中每行乐谱对应的音轨数,所述干扰标注信息用于标注所述样本乐谱图像中非乐谱部分的干扰信息区域;根据每个样本乐谱图像中的干扰标注信息,将所述样本乐谱图像中的干扰信息区域的二值掩码值确定为预设的背景掩码值,并对处理后的图像进行二值化处理,获取每个样本乐谱图像对应的二值掩码标注信息;根据多个样本乐谱图像、每个样本乐谱图像对应的音轨标注信息和二值掩码标注信息,进行模型训练,获取音轨识别模型,所述音轨识别模型用于识别输入的乐谱图像中的单音轨乐谱区域。9.根据权利要求8所述的方法,所述根据每个样本乐谱图像中的干扰标注信息,将所述样本乐谱图像中的干扰信息区域的二值掩码值确定为预设的背景掩码值,并对处理后的图像进行二值化处理,获取每个样本乐谱图像对应的二值掩码标注信息,包括:根据每个样本乐谱图像中的干扰标注信息,将每个样本乐谱图像中的干扰信息区域的二值掩码值确定为所述背景掩码值,并对处理后的图像进行二值化处理,生成初始二值掩码标注信息;对每个样本乐谱图像的初始二值掩码标注信息进行形态学运算操作,生成每个样本乐谱图像的二值掩码标注信息。10.根据权利要求9所述的方法,所述形态学运算操作包括膨胀处理和腐蚀处理。11.根据权利要求8所述的方法,在所述根据每个样本乐谱图像中的干扰标注信息,将所述样本乐谱图像中的干扰信息区域的二值掩码值确定为预设的背景掩码值,并对处理后的图像进行二值化处理,获取每个样本乐谱图像对应的二值...

【专利技术属性】
技术研发人员:蔡苗苗李宜烜金强李鹏刘华平
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1