一种面向简谱图像的音高及对应歌词提取方法及系统技术方案

技术编号：24498913 阅读：33 留言：0更新日期：2020-06-13 04:12

本发明专利技术公开了一种面向简谱图像的音高及对应歌词提取方法及系统，系统应用该方法，方法包括：将待识别的简谱图像转化为灰度图，并进行矫正；将处理后的简谱图像输入训练好的字符识别模型，识别得到简谱图像的字符及字符的位置信息的集合；根据字符的位置信息对字符进行排序分行，得到每行字符的字符集合；根据字符集合进行字符筛选，筛除无关信息，并将多个字符行的集合分为音高行和歌词行两个集合；将歌词行内的字符逐一与音高行内的字符进行距离计算；根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配；从简谱图像中剪切出音高字符图像；分析剪切图像中浮点的存在性及位置占比，判断音高；更新歌词与对应音高的匹配结果。

A method and system for extracting pitch and corresponding lyrics from simplified image

全部详细技术资料下载

【技术实现步骤摘要】
一种面向简谱图像的音高及对应歌词提取方法及系统
本专利技术属于光学乐谱识别
，具体地说，涉及一种面向简谱图像的音高及对应歌词提取方法及系统。
技术介绍
在千万年的历史中，人类创作的音乐，专利技术了用于记录音乐的乐谱，为了便于学习，又专利技术了音乐简谱。曾经中国古代四大专利技术之一的造纸术，使得古人创作的各种作品得以一代一代保存并传递下来，其中就包括乐谱。在数字化信息化的现在，通过纸张保存下来的各种文字信息需要通过数字化的形式进行保存并传递，以便于检索、管理和利用。光学字符识别技术(OpticalCharacterRecognition，OCR)近年来已经得到蓬勃发展。申请号为201210086072.3的专利技术专利公开了一种简谱图像的自动识别和演奏的方法，该方法有三大步骤：步骤一、简谱图像预处理；步骤二、简谱基元识别；步骤三、数字音频的生成和播放。本专利技术在深入分析简谱特征基础上，克服了简谱识别的诸多难点，提出一整套简谱自动识别和智能播放方法。该方法可以自动识别印刷体简谱、带歌词简谱、简谱与五线谱混合谱、简谱与吉他谱混合谱等多种形式的印刷体简谱，正确率均在95％以上；此外，该方法可以模拟钢琴、小提琴、吉他等多种乐器对简谱的演奏效果，并且可以实现简谱的实时识别和播放。该方案中采用支持向量机来识别简谱基元，通过构建样本分类器来分类音符基元，构建的样本分类器智能分类14类音符基元的两两组合，无法对简谱中的重要信息—歌词，进行定位和分类。不能够实现字符和音高匹配。
技术实现思路

【技术保护点】
1.一种面向简谱图像的音高及对应歌词提取方法，其特征在于：包括如下步骤：/nS1：简谱图像预处理，将待识别的简谱图像转化为灰度图，并对图像进行矫正；/nS2：将处理后的简谱图像输入训练好的字符识别模型，识别得到简谱图像的字符及字符的位置信息的集合；/nS3：根据字符的位置信息对字符进行排序分行，得到每行字符的字符集合；/nS4：根据字符集合进行字符筛选，筛除无关信息，并将多个字符行的集合分为音高行和歌词行两个集合；/nS5：根据识别得到的字符及字符的位置信息，将歌词行内的字符逐一与音高行内的字符进行距离计算；/nS6：根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配；/nS7：根据音高字符的位置信息，从简谱图像中剪切出音高字符图像；/nS8：分析剪切图像中浮点的存在性及位置占比，判断音高；/nS9：根据判断的音高更新歌词与对应音高的匹配结果。/n

【技术特征摘要】
1.一种面向简谱图像的音高及对应歌词提取方法，其特征在于：包括如下步骤：
S1：简谱图像预处理，将待识别的简谱图像转化为灰度图，并对图像进行矫正；
S2：将处理后的简谱图像输入训练好的字符识别模型，识别得到简谱图像的字符及字符的位置信息的集合；
S3：根据字符的位置信息对字符进行排序分行，得到每行字符的字符集合；
S4：根据字符集合进行字符筛选，筛除无关信息，并将多个字符行的集合分为音高行和歌词行两个集合；
S5：根据识别得到的字符及字符的位置信息，将歌词行内的字符逐一与音高行内的字符进行距离计算；
S6：根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配；
S7：根据音高字符的位置信息，从简谱图像中剪切出音高字符图像；
S8：分析剪切图像中浮点的存在性及位置占比，判断音高；
S9：根据判断的音高更新歌词与对应音高的匹配结果。

2.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的图像预处理具体包括：
S101：将简谱图像转换为单通道的灰度图，采用如下公式：
Gray＝(R*a+G*b+B*c)/d，其中Gray为灰度通道，R为原图像红色通道值，G为绿色通道值，B为蓝色通道值，a、b、c、d是各个系数且均为正整数；
S102：采用透视变换对灰度图进行矫正，通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标，指定变换后的四角坐标，根据矫正变换公式求出变换矩阵a，再按照变换矩阵对图像进行插值，完成图像矫正，矫正变换公式为：

其中，[x',y',w']是变换后的坐标点，[u,v,w]是初始的点坐标，由于初始点坐标源于二维图像，所以初始坐标的w恒为1；a矩阵是变换矩阵。

3.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的字符识别模型包括两个，一个是CTPN模型，另一个是DenseNet与CTC的组合模型。

4.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的步骤S3具体包括：
S301：按将字符照y轴坐标升序排序；
S302：将所有的字符分类成一行一行的字符行，分类标准为：若两个字符的y轴坐标相差不超过m个像素单位，则这两个字符属于同一行，m为一个正整数；
S303：将每一个字符行内的字符按照x轴坐标升序排序，得到以字符行为单位，每行字符行都按照x坐标升序排序的字符集合。

5.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的步骤S4包括：
S401：根据字符集合，以字符行为单位，判断字符集合与所有筛选信...

【专利技术属性】
技术研发人员：尹学渊，祁松茂，江天宇，
申请(专利权)人：成都嗨翻屋科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人