一种面向简谱图像的音高及对应歌词提取方法及系统技术方案

技术编号:24498913 阅读:33 留言:0更新日期:2020-06-13 04:12
本发明专利技术公开了一种面向简谱图像的音高及对应歌词提取方法及系统,系统应用该方法,方法包括:将待识别的简谱图像转化为灰度图,并进行矫正;将处理后的简谱图像输入训练好的字符识别模型,识别得到简谱图像的字符及字符的位置信息的集合;根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;将歌词行内的字符逐一与音高行内的字符进行距离计算;根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;从简谱图像中剪切出音高字符图像;分析剪切图像中浮点的存在性及位置占比,判断音高;更新歌词与对应音高的匹配结果。

A method and system for extracting pitch and corresponding lyrics from simplified image

【技术实现步骤摘要】
一种面向简谱图像的音高及对应歌词提取方法及系统
本专利技术属于光学乐谱识别
,具体地说,涉及一种面向简谱图像的音高及对应歌词提取方法及系统。
技术介绍
在千万年的历史中,人类创作的音乐,专利技术了用于记录音乐的乐谱,为了便于学习,又专利技术了音乐简谱。曾经中国古代四大专利技术之一的造纸术,使得古人创作的各种作品得以一代一代保存并传递下来,其中就包括乐谱。在数字化信息化的现在,通过纸张保存下来的各种文字信息需要通过数字化的形式进行保存并传递,以便于检索、管理和利用。光学字符识别技术(OpticalCharacterRecognition,OCR)近年来已经得到蓬勃发展。申请号为201210086072.3的专利技术专利公开了一种简谱图像的自动识别和演奏的方法,该方法有三大步骤:步骤一、简谱图像预处理;步骤二、简谱基元识别;步骤三、数字音频的生成和播放。本专利技术在深入分析简谱特征基础上,克服了简谱识别的诸多难点,提出一整套简谱自动识别和智能播放方法。该方法可以自动识别印刷体简谱、带歌词简谱、简谱与五线谱混合谱、简谱与吉他谱混合谱等多种形式的印刷体简谱,正确率均在95%以上;此外,该方法可以模拟钢琴、小提琴、吉他等多种乐器对简谱的演奏效果,并且可以实现简谱的实时识别和播放。该方案中采用支持向量机来识别简谱基元,通过构建样本分类器来分类音符基元,构建的样本分类器智能分类14类音符基元的两两组合,无法对简谱中的重要信息—歌词,进行定位和分类。不能够实现字符和音高匹配。
技术实现思路
针对现有技术中上述的不足,本专利技术提供一种面向简谱图像的音高及对应歌词提取方法及系统,该方法对简谱图像进行识别,实现字符和音高匹配,可以对互联网上存在的简谱数字图像有着较高的识别率和准确率,且识别速度较快,可以极大的降低人工成本,节省时间,提升效率;系统应用该方法,结构简单,识别速度较快。为了达到上述目的,本专利技术采用的解决方案是:一种面向简谱图像的音高及对应歌词提取方法,包括如下步骤:S1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;S101:将简谱图像转换为单通道的灰度图,采用如下公式:Gray=(R*a+G*b+B*c)/d,其中Gray为灰度通道,R为原图像红色通道值,G为绿色通道值,B为蓝色通道值,a、b、c、d是各个系数且均为正整数;S102:采用透视变换对灰度图进行矫正,通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标,指定变换后的四角坐标,根据矫正变换公式求出变换矩阵a,再按照变换矩阵对图像进行插值,完成图像矫正,矫正变换公式为:其中,[x',y',w']是变换后的坐标点,[u,v,w]是初始的点坐标,由于初始点坐标源于二维图像,所以初始坐标的w恒为1;a矩阵是变换矩阵。S2:将处理后的简谱图像输入训练好的字符识别模型,字符识别模型包括两个,一个是CTPN模型,另一个是DenseNet与CTC的组合模型,CTPN模型用于字符的定位,DenseNet与CTC的组合模型用于字符的识别,简谱图像输入两个字符识别模型后得到简谱图像的字符及字符的位置信息的集合,字符的位置信息也就是字符框的四角坐标。S3:根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;S301:按将字符照y轴坐标升序排序;S302:将所有的字符分类成一行一行的字符行,分类标准为:若两个字符的y轴坐标相差不超过m个像素单位,则这两个字符属于同一行,m为一个正整数;S303:将每一个字符行内的字符按照x轴坐标升序排序,得到以字符行为单位,每行字符行都按照x坐标升序排序的字符集合。S4:根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;S401:根据字符集合,以字符行为单位,判断字符集合与所有筛选信息的集合是否存在交集,若不存在交集,则跳过该字符集合,若存在交集,则删除对应字符集合;S402:根据每行字符的类型以及其相邻字符行的类型判断出音高行和歌词行,将筛选后的字符集合进一步分为音高行和歌词行两个集合。S5:根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算,采用曼哈顿距离公式,计算两个字符的字符框左上顶点的坐标,公式如下:d(i,j)=|x1-x2|+|y1-y2|,其中,d(i,j)表示是i、j两个字符之间的曼哈顿距离;x1和y1是第i个字符位置框的左上顶点的坐标;x2和y2是第j个字符位置框的左上顶点坐标。S6:根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配:当且仅当音高字符和歌词字符中,音高字符y坐标大于歌词字符y坐标并且两个字符的曼哈顿距离最小时,两个字符相匹配。S7:根据音高字符的位置信息,从简谱图像中剪切出音高字符图像。S8:分析剪切图像中浮点的存在性及位置占比,判断音高;采用轮廓跟踪算法检测剪切图像的音高浮点:S801:若检测到不存在浮点,则判定音高字符对应着本音,不存在高低八度;S802:若检测到浮点,则判断音高字符属于哪种音高;A.若音高字符的剪切图像的上方α*height部分存在浮点,则该音高字符为高八度的音高字符,α是(0,0.5)区间的某值;B.若音高字符的剪切图像的下方β*height部分存在浮点,则该音高字符为低八度的音高字符,β是(0.5,1)区间的某值;C.若音高字符剪切图像其余位置出现浮点,音高字符保持原音。S9:根据判断的音高更新歌词与对应音高的匹配结果。应用面向简谱图像的音高及对应歌词提取方法的系统,包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块;所述的图像处理模块将待识别的简谱图像转化为灰度图,并对图像进行矫正;所述的字符识别模块采用训练好的字符识别模型识别得到简谱图像的字符及字符的位置信息的集合;所述的字符处理模块根据字符的位置信息对字符进行排序分行,再根据排序分行的结果进行字符筛选,筛除无关信息,最后将多个字符行的集合分为音高行和歌词行两个集合;所述的字符匹配模块用于将将歌词行内的字符逐一与音高行内的字符进行距离计算,根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;所述的音高字符图像获取模块用于根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;所述的音高匹配模块用于分析剪切图像中浮点的存在性及位置占比,判断音高,并将音高更新到歌词与对应音高的匹配结果中。本专利技术的有益效果是:(1)使用本方法对简谱图像进行识别,可以对互联网上存在的简谱数字图像有着较高的识别率和准确率,且识别速度较快,可以极大地降低人工成本,节省时间,提升效率。(2)此外,本方法返回的匹配结果对于歌唱和人声旋律的应用也极有帮助;在一定程度上,可以缓解歌唱数据或旋律数据的缺乏。附图说明...

【技术保护点】
1.一种面向简谱图像的音高及对应歌词提取方法,其特征在于:包括如下步骤:/nS1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;/nS2:将处理后的简谱图像输入训练好的字符识别模型,识别得到简谱图像的字符及字符的位置信息的集合;/nS3:根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;/nS4:根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;/nS5:根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算;/nS6:根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;/nS7:根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;/nS8:分析剪切图像中浮点的存在性及位置占比,判断音高;/nS9:根据判断的音高更新歌词与对应音高的匹配结果。/n

【技术特征摘要】
1.一种面向简谱图像的音高及对应歌词提取方法,其特征在于:包括如下步骤:
S1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;
S2:将处理后的简谱图像输入训练好的字符识别模型,识别得到简谱图像的字符及字符的位置信息的集合;
S3:根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;
S4:根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;
S5:根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算;
S6:根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;
S7:根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;
S8:分析剪切图像中浮点的存在性及位置占比,判断音高;
S9:根据判断的音高更新歌词与对应音高的匹配结果。


2.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的图像预处理具体包括:
S101:将简谱图像转换为单通道的灰度图,采用如下公式:
Gray=(R*a+G*b+B*c)/d,其中Gray为灰度通道,R为原图像红色通道值,G为绿色通道值,B为蓝色通道值,a、b、c、d是各个系数且均为正整数;
S102:采用透视变换对灰度图进行矫正,通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标,指定变换后的四角坐标,根据矫正变换公式求出变换矩阵a,再按照变换矩阵对图像进行插值,完成图像矫正,矫正变换公式为:



其中,[x',y',w']是变换后的坐标点,[u,v,w]是初始的点坐标,由于初始点坐标源于二维图像,所以初始坐标的w恒为1;a矩阵是变换矩阵。


3.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的字符识别模型包括两个,一个是CTPN模型,另一个是DenseNet与CTC的组合模型。


4.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的步骤S3具体包括:
S301:按将字符照y轴坐标升序排序;
S302:将所有的字符分类成一行一行的字符行,分类标准为:若两个字符的y轴坐标相差不超过m个像素单位,则这两个字符属于同一行,m为一个正整数;
S303:将每一个字符行内的字符按照x轴坐标升序排序,得到以字符行为单位,每行字符行都按照x坐标升序排序的字符集合。


5.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的步骤S4包括:
S401:根据字符集合,以字符行为单位,判断字符集合与所有筛选信...

【专利技术属性】
技术研发人员:尹学渊祁松茂江天宇
申请(专利权)人:成都嗨翻屋科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1