一种乐谱智能翻页方法及装置、电子设备、存储介质制造方法及图纸

技术编号：35485201 阅读：20 留言：0更新日期：2022-11-05 16:38

本发明专利技术公开了一种乐谱智能翻页方法及装置、电子设备、存储介质，该方法包括(1)对目标乐谱进行完整识别，转换为相应的电子音频，并得到每一页乐谱的翻页位置；(2)实时提取音乐的第一时频信息特征，时频信息用于音频之间的匹配；(3)将所述第一时频信息特征和步骤(1)中生成的电子音频提取的第二时频信息特征进行匹配，识别所述第一时频信息特征对应的音频在所述目标乐谱中的位置，从而确定演奏者的演奏进度；(4)根据所述每一页乐谱的翻页位置，若步骤(3)中乐音乐谱未匹配到达乐谱页末尾，则返回步骤(2)；若步骤(3)中乐音乐谱匹配到达乐谱页末尾，则发送翻页信号，以实现智能翻页。以实现智能翻页。以实现智能翻页。

全部详细技术资料下载

【技术实现步骤摘要】
一种乐谱智能翻页方法及装置、电子设备、存储介质

[0001]本专利技术属于计算机视觉领域和音频信号处理领域，尤其涉及一种乐谱智能翻页方法及装置、电子设备、存储介质。

技术介绍

[0002]演奏乐器过程中不得不腾出手进行乐谱翻页是打破演奏者演奏的专注性和连贯性的突兀因素，影响视听享受和乐感培养。音乐演奏表演中不乏专业翻谱员的身影，视谱能力、共情能力、专业素质要求其必须是眼明手快的音乐高手，培训成本高，并且在人工翻谱情况下，多翻、忘翻、碰倒乐谱现象仍然时有发生，因此，市场上需要一种自动翻乐谱的装置来解决上述问题。
[0003]市面上现有乐谱辅助翻页装置普遍依赖脚踩踏板发送信号指示翻页，但钢琴、架子鼓、管风琴等诸多乐器演奏本就需要用脚控制，脚踏翻页方法仍然部分注意力的分散，人性化考虑上有待提升。另一个尚在研究阶段的方案为眼控翻页系统(TABONE A,BONNICI A,CRISTINA S.Automated Page Turner for Musicians[J].Frontiers in Artificial Intelligence,2020,3.)，通过分析音乐家注视乐谱和乐器的方式，创建注视预测模型，该模型使用卡尔曼滤波来预测音乐家注视部分在乐谱上的位置，从而在演奏到当前页的结尾部分时，由系统判断并自动给出一个翻页信号。但该系统存在探测器跟踪眼睛注视位置时的固有噪声，并且精度受限于刚性的头部和眼睛运动。一方面，眼睛的监控对摄像头的分辨率提出了高要求，势必带来高造价。另一方面，对于演奏者而言，观看乐谱的需...

【技术保护点】

【技术特征摘要】
1.一种乐谱智能翻页方法，其特征在于，包括：(1)乐谱识别：对目标乐谱进行完整识别，转换为相应的电子音频，并得到每一页乐谱的翻页位置；(2)乐音识别：实时提取音乐的第一时频信息特征，时频信息用于音频之间的匹配；(3)乐音乐谱匹配：将所述第一时频信息特征和步骤(1)中生成的电子音频提取的第二时频信息特征进行匹配，识别所述第一时频信息特征对应的音频在所述目标乐谱中的位置，从而确定演奏者的演奏进度；(4)驱动翻页：根据所述每一页乐谱的翻页位置，若步骤(3)中乐音乐谱未匹配到达乐谱页末尾，则返回步骤(2)；若步骤(3)中乐音乐谱匹配到达乐谱页末尾，则发送翻页信号，以实现智能翻页。2.根据权利要求1所述的方法，其特征在于，所述步骤(1)包括如下子步骤：(1.1)利用霍夫直线检测算法对乐谱页RGB图像进行倾斜校正；(1.2)采用谱线追踪方法对步骤(1.1)倾斜校正后的图像进行弯曲矫正；(1.3)利用中值滤波方法对步骤(1.2)进行弯曲矫正后的图像进行噪声过滤和二值化处理，得到二值化图像；(1.4)对步骤(1.3)得到的二值化图像进行黑白反转，通过依次对黑白反转后的图像二维数组中的每一行求和得到每根谱线的起始行坐标与垂直宽度，将所有相邻谱线起始行坐标间距的中位数作为整体谱线间距，依次对图像每一列数据中对应谱线行坐标的点进行检测，若存在某个点的值为1且所在的值为1的一维连通区域长度小于等于该点所在的谱线的垂直宽度，则将该点所在的值为1的一维连通区域赋值为0，以达到去除谱线的效果；(1.5)通过步骤(1.4)中得到的每根谱线的起始行位置和垂直宽度，依次将每10根谱线所在区域作为一个子部分，将一页五线谱分割为若干个分别只含有一个高音区和一个低音区的子部分，利用基于卷积神经网络的乐符分类器依次对每一子部分所有的连通区域进行识别，得到每一个连通区域最可能属于的音符类别；(1.6)合成电子音频：根据步骤(1.5)的音符类别识别结果，通过高音谱号与低音谱号的位置与谱线的起始行位置确定音符所在区域边界，获取图像内各音符的顺序、时长和音高特征信息，并根据先验知识对根据各音符的顺序得到的音符序列进行误差校正，以使得高音区和低音区音符时长之和相同，根据音符的顺序、时长和音高信息合成电子音频，在每一页乐谱识别完毕后，将这一页乐谱末尾在整个音频中所处的时间节点添加进翻页位置数组里。3.根据权利要求2所述的方法，其特征在于，步骤(1.5)中的基于卷积神经网络的乐符分类器包含一个卷积层、一个池化层和两个全连接层，其中ReLU层作为激活函数层，训练时选择Adam梯度下降算法，所述卷积神经网络的输入为步骤(1.5)中每一子部分里每个连通区域的最小矩形边界框里的乐符图像，输出为每个乐符图像相应的乐符所属类别。4.根据权利要求2所述的方法，其特征在于，在步骤(1.6)中，获取图像内各音符的顺序、时长和音高特征信息，包括：对于单音音符，直接得到音符时长，并根据音符边界框与谱线的相对位置得到音符音高；对于和弦，直接得到音符时长，分别提取每一个音符头的位置，通过每个音符头与谱线的相对位置得到和弦对应的一串音符的音高；对于休止符，可以直接得到音符时长，并直接将音高设置为0；对于连音，通过检测连音上方或下方存在的横
线数量确定音符时长，通过检测音符头的位置确定对应音符的音高；对于符点，如果符点位置位于某个已知时长的音符边界框一个整体谱线间距范围内，这个音符时长变为原来的1.5倍；对于重升号、升号、重降号、降号和复原号，如果它们位于某个已知音高的音符的边界框一个整体谱线间距范围内，根据它们代表的音乐含义对这个音符的音高进行修正；对于其它音乐符号暂不做处理。5.根据权利要求2所述的方法，其特征在于，在步骤(1.6)对音符序列进行误差校正中，如果检测到某个子部分高音区时长之和与低音区时长之和不一致，则通过步骤(1.5)检测到的小节线将这一子部分内高音区和低音区分割成各个小节，将各个小节时长之和的众数定义为正确小节时长，如果检测到其中一个小节对应音符时长不等于正确小节时长，对这个小节里最后一个音符的时长进行加减，直到这个小节音符的时长之和与正确小节时长相同。6.根据权利要求1述的全自动的乐谱智能翻页方法，其特征在于，所述步骤(2)包括如下子步骤：(2.1)将所述电子音...

【专利技术属性】
技术研发人员：高尧，王子超，何家建，鲁文凯，周杜雯，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人