一种乐谱图像识别方法及装置制造方法及图纸

技术编号:14704666 阅读:68 留言:0更新日期:2017-02-25 04:25
本发明专利技术公开的乐谱图像识别方法及装置,包括,获得待处理的五线谱图像;对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。本发明专利技术乐谱图像识别方法及装置,相较于传统计算机视觉方法,识别精度高且识别速度快。

【技术实现步骤摘要】

本专利技术涉及图像识别
,特别涉及一种乐谱图像识别方法及装置
技术介绍
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。现有技术中的乐谱图像识别方法,大多基于传统计算机视觉方法,在识别精度和识别速度上不是十分理想,无法做到快速精准识别,甚至需要对待识别的乐谱做出高度规范化要求,不利于日常场景的使用。
技术实现思路
本专利技术实施例的目的在于提供一种乐谱图像识别方法及装置,可以解决现有技术中存在的乐谱识别精度和识别速度不理想的问题。为达到上述目的,本专利技术实施例公开了,一种乐谱图像识别方法,包括:获得待处理的五线谱图像;对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。优选的,所述的音符分类器的训练过程,包括:建立正样本数据集和负样本数据集,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。优选的,所述的每个样本的通道特征,包括,灰度和颜色、线性滤波、非线性变换、逐点变换、梯度直方图。优选的,对待处理的五线谱图像进行音符定位分割,包括,在待处理的五线谱图像上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待处理的五线谱图像中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置。优选的,所述的卷积神经网络的训练过程,包括,建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。优选的,所述的采用卷积神经网络对分割获得的音符符头进行识别,包括,将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。优选的,所述的待处理的五线谱图像,具体为:对五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到的二值图像。优选的,所述的边缘检测方法为单边边缘检测方法,包括:a)选用Sobel算子,分别求出水平方向上和垂直方向上的梯度值:水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)幅值:Sobel模板:其中,a0-a7代表8个邻域像素点;b)采用非极大值抑制对水平方向上和垂直方向上的梯度值进行抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0;c)采用自适应阈值方法,得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,描绘出图像的边缘信息。优选的,所述的直线检测方法采用hough直线检测方法。本专利技术实施例还公开了,一种乐谱图像识别装置,包括,图像获取单元,获得待处理的五线谱图像;五线位置坐标检测单元,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;音符定位分割单元,采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;音符符头识别单元,采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;乐谱图像识别单元,根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。由上述的技术方案可见,本专利技术实施例,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。相较于传统计算机视觉方法,本专利技术采用音符分类器与卷积神经网络级联进行音符识别,具有识别速度快,识别精度高的优点。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术乐谱识别方法第一种实施例的流程图;图2是本专利技术乐谱识别方法第二种实施例的流程图;图3是本专利技术乐谱识别方法第二种实施例中单边边缘检测方法原理图;图4是本专利技术乐谱识别方法第二种实施例中五线位置坐标检测的效果图;图5是本专利技术乐谱识别方法第二种实施例中音符分类器的训练过程示意图;图6是本专利技术乐谱识别方法第二种实施例中正样本数据集和负样本数据集的样本示意图;图7是本专利技术乐谱识别方法第二种实施例中音符定位分割的流程图;图8是本专利技术乐谱识别方法第二种实施例中音符定位分割的效果图;图9是本专利技术乐谱识别方法第二种实施例中卷积神经网络的训练过程示意图;图10是本专利技术乐谱识别方法第二种实施例中卷积神经网络结构图;图11是本专利技术乐谱识别方法第二种实施例中音符符头识别的流程图;图12是本专利技术乐谱识别装置的一种实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术乐谱识别方法第一种实施例,如图1所示,包括以下步骤:步骤101:获得待处理的五线谱图像;步骤102:对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;步骤103:采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;步骤104:采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;步骤105:根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。本专利技术乐谱识别方法第二种实施例,如图2所示,包括以下步骤:步骤201本文档来自技高网...
一种乐谱图像识别方法及装置

【技术保护点】
一种乐谱图像识别方法,其特征在于,包括:获得待处理的五线谱图像;对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。

【技术特征摘要】
1.一种乐谱图像识别方法,其特征在于,包括:获得待处理的五线谱图像;对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。2.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的音符分类器的训练过程,包括:建立正样本数据集和负样本数据集,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。3.根据权利要求2所述的乐谱图像识别方法,其特征在于,所述的每个样本的通道特征,包括,灰度和颜色、线性滤波、非线性变换、逐点变换、梯度直方图。4.根据权利要求2或3所述的乐谱图像识别方法,其特征在于,所述的对待处理的五线谱图像进行音符定位分割,包括,在待处理的五线谱图像上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待处理的五线谱图像中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置。5.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的卷积神经网络的训练过程,包括,建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。6.根据权利要求5...

【专利技术属性】
技术研发人员:宋晴杨录王智慧杨李怡贾文赫刘小欧辛学仕陈海鹏杨敏姜佳男
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1