一种可识别小字符内容的工尺谱数字化方法技术

技术编号：24036479 阅读：71 留言：0更新日期：2020-05-07 02:03

本发明专利技术公开一种可识别小字符内容的工尺谱数字化方法。本发明专利技术包括以下步骤：对输入的工尺谱图像作色彩空间转换及二值化处理；依据投影区分歌词与谱字并分割得到单谱字图像；对单谱字图像利用卷积神经网络识别，得到谱字分类信息；对音高谱字使用不同于上述网络的卷积网络识别，以得到包含升降调符号在内的小字符信息，最终完成工尺谱数字化。通过使用两个卷积神经网络，能识别传统技术无法识别的升降调等小字符符号，有利于工尺谱数字化的实现。

A digital method of work scale spectrum for recognizing small character content

全部详细技术资料下载

【技术实现步骤摘要】
一种可识别小字符内容的工尺谱数字化方法
本专利技术涉及光学音乐识别领域，具地体，涉及一种可识别符号的工尺谱数字化方法。
技术介绍
光学音乐识别是一种使用计算机技术将纸质乐谱数字化的方法。传统的光学音乐识别基于围绕五线谱识别展开，对数字化的乐谱图像经预处理，分割，对象识别与语义重建后得到所需的音乐信息，其发展较为成熟，已有不少商业软件。工尺谱作为我国传统的一种文字记谱方法，与民族乐器和传统曲目紧密联系，我国传统文献中的乐谱多用工尺谱记载。但针对工尺谱的光学音乐识别研究仍处于发展阶段，现有的技术存在以下不足：1)无法识别小字符。在工尺谱中音调的升降调和时值使用“\”(颤音)，“∨”(豁音)，“×”(赠板)等符号表示，但在现有方法中这些小字符往往在图像预处理阶段被当成干扰噪声去除，以至丢失乐谱的时值、调高等信息，最终仅能记录下乐谱的音高，剩余信息需人工补充，这对于自动化的乐谱识别是难以接受的。2)识别成功率低。工尺谱作为一种文字记谱方法，虽然使用“合、四、一、上、尺、工、凡、六、五、乙”等汉字用于记谱，但其特有的升...

【技术保护点】
1.一种可识别小字符内容的工尺谱数字化方法，其特征在于包括以下步骤：/n步骤S1：图像预处理/n通过对经光电扫描数字化后的工尺谱图像作色彩空间转换，二值化处理；/n步骤S2：工尺谱图像分割/n对步骤S1得到的二值化位图作图像分割处理；依据工尺谱书写规律，在水平方向区分词谱，在垂直方向区分不同谱字，并通过检测间隔长度判断乐逗；具体地，包括以下步骤：/n步骤S21：词谱分割；利用水平投影分割词谱；具体地，包括以下步骤：/n步骤S211：水平投影计算；通过对大小为M×N的二值化位图统计每一列的像素值总和，得到水平投影P

【技术特征摘要】
1.一种可识别小字符内容的工尺谱数字化方法，其特征在于包括以下步骤：
步骤S1：图像预处理
通过对经光电扫描数字化后的工尺谱图像作色彩空间转换，二值化处理；
步骤S2：工尺谱图像分割
对步骤S1得到的二值化位图作图像分割处理；依据工尺谱书写规律，在水平方向区分词谱，在垂直方向区分不同谱字，并通过检测间隔长度判断乐逗；具体地，包括以下步骤：
步骤S21：词谱分割；利用水平投影分割词谱；具体地，包括以下步骤：
步骤S211：水平投影计算；通过对大小为M×N的二值化位图统计每一列的像素值总和，得到水平投影Px(i)；水平投影的计算公式如下：

其中f(k,i)表示第k行第i列像素的像素值；
步骤S212：定位文字区域；
对二值化位图每一行从右往左扫描，若Px(i1)≤ω1且Px(i1+1)>ω1，则将第i1+1列像素标为起点，继续向左扫描直至找到一列像素满足Px(i2)>ω1且Px(i2+1)≤ω1，将第i2列像素标为终点，起点至终点间的像素为文字区域；其中ω1为阈值；
步骤S213：区分歌词与谱字；
获取上述步骤S212中每个文字区域的宽度Wi，i表示第i个文字区域；将第1个区域归入集合D1中，若其余每个区域的宽度Wi判断是否满足0.8W1<Wi<1.2W1，若是则将该文字区域归入集合D1中，反之放入集合D2中，最终将得到集合D1、D2；将具有最大平均宽度的集合为歌词集合，另一个为谱字集合；
步骤S22：单字分割；利用垂直投影分割单字；具体地，包括以下步骤：
步骤S221：垂直投影计算；
通过统计上述步骤S21得到的歌词集合中每一个文字区域的像素值总和，得到每个歌词文字区域垂直投影Py(j)；垂直投影的计算公式如下：

其中f(j,k)表示第j行第k列像素的像素值；
步骤S222：划分歌词集合中每个文字区域的单个字；
对每个歌词文字区域自上往下扫描，若Py(j1)≤ω2且Py(j1+1)>ω2，则将第j1+1行像素标为起点，继续向下扫描直至找到一行像素满足Py(j2)>ω2且Py(j2+1)≤ω2，将第j2行像素标为终点，起点至终点间的像素为单字区域；其中ω2为给定误差；
步骤S223：获取谱字对应的歌词区域
获取每个歌词单字区域的宽度WLi；第i个歌词文字区域中第j2行像素点作为起点的第k个单字，该单字的起点至终点间的像素距离Hi,k满足0.8WLi≤Hi,k≤1.2WLi，则再次确认为歌词单字区域，反之则取消终点标记并重置ω2＝0.5ω2，以j1+2行像素标为起点，返回步骤S222，重新获取歌词单字区域；
位于该歌词单字右侧的谱字落入在该歌词单字起点至终点标记间区域为该歌词单字初步分割的对应谱字区域；
步骤S224：单谱字分割；
对初步分割的谱字区域自上往下扫描，若Py(j′1)≤ω3且Py(j′1+1)>ω3，则将第j′1+1行像素标为起点，继续向下扫描直至找到一行像素满足Py(j′2)>ω3且Py(j′2+1)≤ω3，将第j′2行像素标为终点，起点至终点间的区域为排除空白后谱字区域；其中ω3为给定误差；
步骤S225：获取第i个谱字区域中第k个排除空白后谱字区域中起点至终点间的像素距离H′i,k；若H′i,k<0.8WRi，则取消终点标记并从第j′2+2行开始检测终点，重复本步骤；若满足0.8WRi<H′i,k<1.2WRi，则将该起点至终点间的像素再次确认为单谱字区域；若H′i,k>1.2WRi则取消终点标记并重置ω3＝0.5ω3，自j′1+2行像素开始重新检测终点，重复本步骤；对所有的谱字区域重复本步骤，得到图像中所有谱字的单谱字区域；
步骤S3：构建第一个卷积神经网络，以识别谱字
步骤S2中得到的单谱字区域图像作为输入，25个谱字作为输出；
25个谱字包括音高谱字“合、四、一、上、尺、工、凡、六、五、乙”、豁音符号“∨”、落音符号“の”、颤音符号“\”、赠板符号“×”、赠板符号“|×”、实眼符号“〇”、腰眼符号“△”、腰板符号“﹂”、高八度谱字“上、尺、工、凡、六、五、乙”以及“仩、伬、仜、伍、亿”；
步骤S4：构建第二个卷积神经网络，以识别细节信息
将上述步骤S3中分类结果为音高谱字“合、四、一、上、尺、工、凡、六、五、乙、仩、伬、仜、伍、亿”的单谱字区域图像作为输入，20个音高谱字的升降调分类及共计37个音高谱字与4个乐谱符号的185个组合识别结果作为输出；
20个音高谱字的升降调包括“合、四、一、上、尺、工、凡、六、五、乙”的升调谱字和降调谱字；
185个组合识别分类包括37个音高谱字与4个乐谱符号组合，以及37个音高谱字不带乐谱符号；
37个音高谱字包括上述20个音高谱字的升降调、“合、四、一、上、尺、工、凡、六、五、乙”10个音高谱字与“仩、伬、仜、伍、亿”7个异体的音高谱字；
4个乐谱符号包括掇音符号“、”、实板符号“、”、叠音符号“、、”、腰板符号“—”。

2.如权利要求1所述的一种可识别小字符内容的工尺谱数字化方法，其特征在于步骤S1具体包括如下步骤：
步骤S11：图像色彩空间转化；由扫描仪录入的图像数据为RGB色彩空间的TIFF格式图像，将色彩空间转化为带有单独亮度通道的LAB格式图像；
采用基于多项式回归的色彩空间转化法，其转化公式如下：
LAB＝CM*RGB
LAB＝(L,a,b)T
RGB＝(R,G,B,RG,GB,BR)T

...

【专利技术属性】
技术研发人员：郑杰文，袁友伟，窦琳，张美玲，李文馨，谭雨帆，詹易，孙豪伟，鄢腊梅，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人