当前位置: 首页 > 专利查询>浙江大学专利>正文

一种乐谱智能翻页方法及装置、电子设备、存储介质制造方法及图纸

技术编号:35485201 阅读:20 留言:0更新日期:2022-11-05 16:38
本发明专利技术公开了一种乐谱智能翻页方法及装置、电子设备、存储介质,该方法包括(1)对目标乐谱进行完整识别,转换为相应的电子音频,并得到每一页乐谱的翻页位置;(2)实时提取音乐的第一时频信息特征,时频信息用于音频之间的匹配;(3)将所述第一时频信息特征和步骤(1)中生成的电子音频提取的第二时频信息特征进行匹配,识别所述第一时频信息特征对应的音频在所述目标乐谱中的位置,从而确定演奏者的演奏进度;(4)根据所述每一页乐谱的翻页位置,若步骤(3)中乐音乐谱未匹配到达乐谱页末尾,则返回步骤(2);若步骤(3)中乐音乐谱匹配到达乐谱页末尾,则发送翻页信号,以实现智能翻页。以实现智能翻页。以实现智能翻页。

【技术实现步骤摘要】
一种乐谱智能翻页方法及装置、电子设备、存储介质


[0001]本专利技术属于计算机视觉领域和音频信号处理领域,尤其涉及一种乐谱智能翻页方法及装置、电子设备、存储介质。

技术介绍

[0002]演奏乐器过程中不得不腾出手进行乐谱翻页是打破演奏者演奏的专注性和连贯性的突兀因素,影响视听享受和乐感培养。音乐演奏表演中不乏专业翻谱员的身影,视谱能力、共情能力、专业素质要求其必须是眼明手快的音乐高手,培训成本高,并且在人工翻谱情况下,多翻、忘翻、碰倒乐谱现象仍然时有发生,因此,市场上需要一种自动翻乐谱的装置来解决上述问题。
[0003]市面上现有乐谱辅助翻页装置普遍依赖脚踩踏板发送信号指示翻页,但钢琴、架子鼓、管风琴等诸多乐器演奏本就需要用脚控制,脚踏翻页方法仍然部分注意力的分散,人性化考虑上有待提升。另一个尚在研究阶段的方案为眼控翻页系统(TABONE A,BONNICI A,CRISTINA S.Automated Page Turner for Musicians[J].Frontiers in Artificial Intelligence,2020,3.),通过分析音乐家注视乐谱和乐器的方式,创建注视预测模型,该模型使用卡尔曼滤波来预测音乐家注视部分在乐谱上的位置,从而在演奏到当前页的结尾部分时,由系统判断并自动给出一个翻页信号。但该系统存在探测器跟踪眼睛注视位置时的固有噪声,并且精度受限于刚性的头部和眼睛运动。一方面,眼睛的监控对摄像头的分辨率提出了高要求,势必带来高造价。另一方面,对于演奏者而言,观看乐谱的需求和眼球的运动存在极大的随机性,包括注视时间和注视方式及方位的未知性,因此该方案仍然存在漏翻、错翻的可能性,智能性上仍有不足。
[0004]现有专利技术已经存在针对于乐谱自动翻页的一些方法,其中接近我们的方法的现有专利技术之一是申请号为CN202010797697.5的中国专利技术,公开了一种音乐乐谱自动翻页方法,该方法通过手动输入演奏音乐乐谱上下页衔接处的音符,通过声音传感器接收到的音调顺序与设置的一串音符一致时进行翻页。该方法存在的缺陷是:1)仅将上下页衔接处的音符音调作为判断条件,实际情况中稍复杂一点的乐谱均有大量重复段落,一串音符可能出现在乐谱的任何地方,因此该方法设置的翻页条件容易出现错翻、漏翻和多翻的情况,准确性不足;2)实际乐器演奏和练习中演奏者难免会出现弹奏错误的情况,简单的声音传感器不一定能完全识别弹奏音频,一旦有一个音符弹错或没有识别出来,该方法设置的翻页条件便无法被触发,容错性低;3)翻页条件里要设置的一串音符需要手动输入,实际情况中手动输入音符是一件很费时费力的工作,并且可能存在输入错误的情况,自动性仍然不足。
[0005]还有一种专利技术是申请号为CN201910837944.7的专利技术,公开了一种电子谱翻页方法,通过机器学习将弹奏的录制音频转换为电子乐谱片段,与在总的电子乐谱里进行比对,判断到达末尾时进行翻页,该方法存在的不足是:仅仅适用于包含了乐谱完整信息的电子谱,而无法适用于没有包含MIDI等计算机可读格式的电子乐谱图片和纸质乐谱图片,不
具有通用性,实际使用中仍然需要手动输入乐谱完整的信息,并生成源音频作为参照标准,会耗费巨大的人力物力,缺少自动将所有乐谱转换为计算机可读格式的通用方法。
[0006]综上所述,目前尚缺乏一种电子乐谱与纸质乐谱通用的,具有高准确度和高容错性的全自动乐谱智能翻页方法。

技术实现思路

[0007]针对现有技术的不足,本申请实施例的目的是提供一种乐谱智能翻页方法及装置、电子设备、存储介质,以实现电子乐谱与纸质乐谱通用且具有高准确度和高容错性。
[0008]根据本申请实施例的第一方面,提供一种乐谱智能翻页方法,包括:
[0009](1)乐谱识别:对目标乐谱进行完整识别,转换为相应的电子音频,并得到每一页乐谱的翻页位置;
[0010](2)乐音识别:实时提取音乐的第一时频信息特征,时频信息用于音频之间的匹配;
[0011](3)乐音乐谱匹配:将所述第一时频信息特征和步骤(1)中生成的电子音频提取的第二时频信息特征进行匹配,识别所述第一时频信息特征对应的音频在所述目标乐谱中的位置,从而确定演奏者的演奏进度;
[0012](4)驱动翻页:根据所述每一页乐谱的翻页位置,若步骤(3)中乐音乐谱未匹配到达乐谱页末尾,则返回步骤(2);若步骤(3)中乐音乐谱匹配到达乐谱页末尾,则翻页信号,以实现智能翻页。
[0013]进一步地,所述步骤(1)包括如下子步骤:
[0014](1.1)利用霍夫直线检测算法对乐谱页RGB图像进行倾斜校正;
[0015](1.2)采用谱线追踪方法对步骤(1.1)倾斜校正后的图像进行弯曲矫正;
[0016](1.3)利用中值滤波方法对步骤(1.2)进行弯曲矫正后的图像进行噪声过滤和二值化处理,得到二值化图像;
[0017](1.4)对步骤(1.3)得到的二值化图像进行黑白反转,通过依次对黑白反转后的图像二维数组中的每一行求和得到每根谱线的起始行坐标与垂直宽度,将所有相邻谱线起始行坐标间距的中位数作为整体谱线间距,依次对图像每一列数据中对应谱线行坐标的点进行检测,若存在某个点的值为1且所在的值为1的一维连通区域长度小于等于该点所在的谱线的垂直宽度,则将该点所在的值为1的一维连通区域赋值为0,以达到去除谱线的效果;
[0018](1.5)通过步骤(1.4)中得到的每根谱线的起始行位置和垂直宽度,依次将每10根谱线所在区域作为一个子部分,将一页五线谱分割为若干个分别只含有一个高音区和一个低音区的子部分,利用基于卷积神经网络的乐符分类器依次对每一子部分所有的连通区域进行识别,得到每一个连通区域最可能属于的音符类别;
[0019](1.6)合成电子音频:根据步骤(1.5)的音符类别识别结果,通过高音谱号与低音谱号的位置与谱线的起始行位置确定音符所在区域边界,获取图像内各音符的顺序、时长和音高特征信息,并根据先验知识对根据各音符的顺序得到的音符序列进行误差校正,以使得高音区和低音区音符时长之和相同,根据音符的顺序、时长和音高信息合成电子音频,在每一页乐谱识别完毕后,将这一页乐谱末尾在整个音频中所处的时间节点添加进翻页位置数组里。
[0020]进一步地,步骤(1.5)中的基于卷积神经网络的乐符分类器包含一个卷积层、一个池化层和两个全连接层,其中ReLU层作为激活函数层,训练时选择Adam梯度下降算法,所述卷积神经网络的输入为步骤(1.5)中每一子部分里每个连通区域的最小矩形边界框里的乐符图像,输出为每个乐符图像相应的乐符所属类别。
[0021]进一步地,在步骤(1.6)中,获取图像内各音符的顺序、时长和音高特征信息,包括:对于单音音符,直接得到音符时长,并根据音符边界框与谱线的相对位置得到音符音高;对于和弦,直接得到音符时长,分别提取每一个音符头的位置,通过每个音符头与谱线的相对位置得到和弦对应的一串音符的音高;对于休止符,可以直接得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种乐谱智能翻页方法,其特征在于,包括:(1)乐谱识别:对目标乐谱进行完整识别,转换为相应的电子音频,并得到每一页乐谱的翻页位置;(2)乐音识别:实时提取音乐的第一时频信息特征,时频信息用于音频之间的匹配;(3)乐音乐谱匹配:将所述第一时频信息特征和步骤(1)中生成的电子音频提取的第二时频信息特征进行匹配,识别所述第一时频信息特征对应的音频在所述目标乐谱中的位置,从而确定演奏者的演奏进度;(4)驱动翻页:根据所述每一页乐谱的翻页位置,若步骤(3)中乐音乐谱未匹配到达乐谱页末尾,则返回步骤(2);若步骤(3)中乐音乐谱匹配到达乐谱页末尾,则发送翻页信号,以实现智能翻页。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括如下子步骤:(1.1)利用霍夫直线检测算法对乐谱页RGB图像进行倾斜校正;(1.2)采用谱线追踪方法对步骤(1.1)倾斜校正后的图像进行弯曲矫正;(1.3)利用中值滤波方法对步骤(1.2)进行弯曲矫正后的图像进行噪声过滤和二值化处理,得到二值化图像;(1.4)对步骤(1.3)得到的二值化图像进行黑白反转,通过依次对黑白反转后的图像二维数组中的每一行求和得到每根谱线的起始行坐标与垂直宽度,将所有相邻谱线起始行坐标间距的中位数作为整体谱线间距,依次对图像每一列数据中对应谱线行坐标的点进行检测,若存在某个点的值为1且所在的值为1的一维连通区域长度小于等于该点所在的谱线的垂直宽度,则将该点所在的值为1的一维连通区域赋值为0,以达到去除谱线的效果;(1.5)通过步骤(1.4)中得到的每根谱线的起始行位置和垂直宽度,依次将每10根谱线所在区域作为一个子部分,将一页五线谱分割为若干个分别只含有一个高音区和一个低音区的子部分,利用基于卷积神经网络的乐符分类器依次对每一子部分所有的连通区域进行识别,得到每一个连通区域最可能属于的音符类别;(1.6)合成电子音频:根据步骤(1.5)的音符类别识别结果,通过高音谱号与低音谱号的位置与谱线的起始行位置确定音符所在区域边界,获取图像内各音符的顺序、时长和音高特征信息,并根据先验知识对根据各音符的顺序得到的音符序列进行误差校正,以使得高音区和低音区音符时长之和相同,根据音符的顺序、时长和音高信息合成电子音频,在每一页乐谱识别完毕后,将这一页乐谱末尾在整个音频中所处的时间节点添加进翻页位置数组里。3.根据权利要求2所述的方法,其特征在于,步骤(1.5)中的基于卷积神经网络的乐符分类器包含一个卷积层、一个池化层和两个全连接层,其中ReLU层作为激活函数层,训练时选择Adam梯度下降算法,所述卷积神经网络的输入为步骤(1.5)中每一子部分里每个连通区域的最小矩形边界框里的乐符图像,输出为每个乐符图像相应的乐符所属类别。4.根据权利要求2所述的方法,其特征在于,在步骤(1.6)中,获取图像内各音符的顺序、时长和音高特征信息,包括:对于单音音符,直接得到音符时长,并根据音符边界框与谱线的相对位置得到音符音高;对于和弦,直接得到音符时长,分别提取每一个音符头的位置,通过每个音符头与谱线的相对位置得到和弦对应的一串音符的音高;对于休止符,可以直接得到音符时长,并直接将音高设置为0;对于连音,通过检测连音上方或下方存在的横
线数量确定音符时长,通过检测音符头的位置确定对应音符的音高;对于符点,如果符点位置位于某个已知时长的音符边界框一个整体谱线间距范围内,这个音符时长变为原来的1.5倍;对于重升号、升号、重降号、降号和复原号,如果它们位于某个已知音高的音符的边界框一个整体谱线间距范围内,根据它们代表的音乐含义对这个音符的音高进行修正;对于其它音乐符号暂不做处理。5.根据权利要求2所述的方法,其特征在于,在步骤(1.6)对音符序列进行误差校正中,如果检测到某个子部分高音区时长之和与低音区时长之和不一致,则通过步骤(1.5)检测到的小节线将这一子部分内高音区和低音区分割成各个小节,将各个小节时长之和的众数定义为正确小节时长,如果检测到其中一个小节对应音符时长不等于正确小节时长,对这个小节里最后一个音符的时长进行加减,直到这个小节音符的时长之和与正确小节时长相同。6.根据权利要求1述的全自动的乐谱智能翻页方法,其特征在于,所述步骤(2)包括如下子步骤:(2.1)将所述电子音...

【专利技术属性】
技术研发人员:高尧王子超何家建鲁文凯周杜雯
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1