一种基于深度学习的钢琴和声自动编配系统及方法技术方案

技术编号:21895717 阅读:23 留言:0更新日期:2019-08-17 16:01
本发明专利技术提供一种基于深度学习的钢琴和声自动编配系统及方法。该系统包括三个模块:音符检测模块、音符估计模块和神经网络模块。音符检测模块负责提取音符起点和音符终点,将一首音乐分割成多个音符段,每个音符段包含一个或者多个音符。音符估计模块负责提取每个音符段的主音符以及和声。神经网络模块负责将上述的主音符序列以及和声序列分别作为神经网络的输入以及输出进行训练,训练完成后神经网络便具有为主音符编配和声的能力,从而实现和声自动编配。本发明专利技术利用钢琴按键的音高以及谐波结构信息,使得音符检测以及音符估计的性能得到提高,同时可根据用户的喜好训练特定音乐,从而编配对应风格的和声。

A Piano Harmony Automatic Arrangement System and Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的钢琴和声自动编配系统及方法
本专利技术涉及到信号滤波器组分析、音乐信号主音符估计、和声估计、循环神经网络等
,具体涉及一种基于深度学习的钢琴和声自动编配系统及方法。
技术介绍
主旋律以及和声在音乐中都占有重要的地位。其中,主旋律是按一定的音高、时值和音量构成的音符序列,而和声是多个音符的结合,对音乐特色的展示以及对人类情感的表达都发挥巨大作用。一方面,为主旋律编配和声,涉及到基础乐理以及和声规则等专业知识,需要具备丰富音乐知识的专业人员才能胜任此工作,对于普通用户来说,技术门槛要求较高。另一方面,音乐的形式和风格多种多样,每个人都会对某些特定风格有所偏爱,因此,相同的一段旋律,可以根据不同的风格为主旋律编配不同的和声,从而满足用户个性化需求。从wav格式的钢琴音乐中提取主旋律以及和声,首先要检测音符的起点时间和结束时间,检测准确率将直接影响后面的音符估计性能。以往音符起点检测有以下方法:基于短时能量和过零率、基于相位特征、基于频谱差值和高频加权成分分析等。其中,通过短时能量和过零率来判断音符起点是借鉴语音信号的做法,准确率不高;基于相位特征的方法易受低频能量噪声影响,不适合钢琴这种复调音乐;基于频谱差值的方法需要处理大量频率点,计算量较大;高频加权成分分析方法由于赋予高频较大的加权系数,会导致低频能量难以检测。另外,上述方法都没有考虑到具体的乐音特征,抑制了音高信息,从而降低对钢琴的音符起点检测性能。其次,在检测完音符起点时间和结束时间后,需要进行音符估计,包括主音符估计以及和声估计,按照时间顺序拼接即可得到主音符序列以及和声序列。以往和声估计的方法有以下方法:基于迭代的谱减法、基于频谱最大似然概率模型和基于隐马尔可夫模型。其中,最经典的方法是基于迭代的谱减法,该方法不仅需要过多的超参数,而且每一步迭代过程都需要进行频谱平滑处理,破坏频谱信息;基于频谱最大似然概率模型的方法无法很好解决基频个数估计的问题;基于隐马尔可夫模型的方法则需要根据大量样本来学习最优的模型参数,计算复杂度高。对主旋律进行和声编配,目前大多是人工的方法,而本专利技术使用一种基于深度学习的和声编配方法,在提取主音符序列以及和声序列后,分别作为神经网络的输入和输出对神经网络模型进行训练,使得神经网络学习特定风格的和声编配规则。训练完成后,输入一首钢琴音乐,提取主音符序列并输入到神经网络,神经网络的输出就是和声序列,从而实现自动为一首音乐的主旋律编配特定风格的和声。由于该系统包含音符起点检测以及和声估计两个过程,为了解决上述传统方法带来的问题,本专利技术的方案提供了基于十二平均律的音符起点检测方法以及针对钢琴音色的、高效的和声估计方法,从而更接近音乐和乐器的本质。
技术实现思路
本专利技术的目的在于提供一种基于深度学习的钢琴和声自动编配系统,该系统可以根据不同的歌曲风格为主旋律编配不同的和声,从而满足用户个性化需求。在本专利技术中,第一,为了克服在音符起点检测中忽略音高信息而导致检测性能不高的问题,本专利技术提出一种基于十二平均律的音律滤波器组的音符起点检测方法,音律滤波器组包含88个带通滤波器,其中心频率与钢琴的88个琴键的基频一一对应,截止频率为中心频率的相邻半音的频率,该方法不仅考虑到低频段能量集中的特点,又考虑到音高信息,从而提升检测性能。第二,为了克服在和声估计中准确率不高以及算法效率低等问题,本专利技术提出一种基于音色滤波器组的和声估计方法,和谱减法相比,该方法不需要超参数,不破坏频谱信息,而且提取的特征维度只有88维,算法效率高。本专利技术提供的基于深度学习的钢琴和声自动编配系统,包含三个模块,音符检测模块、音符估计模块和神经网络模块。音符检测模块负责提取所有音符的起点时间和结束时间,将一首音乐分割成多个音符段,每个音符段包含一个或者多个音符;音符估计模块负责提取每个音符段的主音符以及和声,按照时间顺序拼接得到主音符序列以及和声序列;神经网络模块负责将上述提取到的主音符序列以及和声序列分别作为输入和输出对模型进行训练,训练完成后,往模型输入主音符序列,得到对应的和声序列,从而实现和声的自动编配。所述的音符检测模块,负责提取音符起点和音符终点,将一首音乐分割成多个音符段,每个音符段包含一个或者多个音符,一个音符则为主音符,而多个音符则包含一个主音符以及和声。音符检测模块包含一个音律滤波器组,它包含多个带通滤波器,带通滤波器的数量以及每个带通滤波器的中心频率和对应带宽将由十二平均律决定,因为十二平均律已经规定两个单音之间的相对音高,而钢琴是十二平均律制乐器,有88个琴键,每一个琴键的音高就是根据十二平均律定音,因此,音律滤波器组的带通滤波器数量是88个,带通滤波器的中心频率与钢琴的88个琴键的基频一一对应,截止频率为中心频率的相邻半音的频率。上述音符检测模块的工作过程为:1)输入wav格式的钢琴音乐,经过归一化、分帧加窗、短时傅里叶变换和对数转换步骤,获取每一帧的对数能量谱。2)通过音律滤波器组获取每帧能量在频率上的分布,公式如下:其中,Sm(ω)代表第m帧的对数能量谱,Hk(ω)代表第k个滤波器的传递函数,由于滤波器的数量为88个,因此k的取值范围为[1,88],E(m,k)代表第m帧对数能量谱通过第k个滤波器的输出,将E(m,1),E(m,2),…,E(m,88)拼接得到第m帧的88维列向量,向量中的每一个元素代表对应频率带的能量成分。3)对每一帧获取的88维向量,以帧为单位对向量进行一阶差分,然后对一阶差分求均值。4)音符起点检测:检测一阶差分均值的峰值,该峰值对应的时间就是音符的起点时间,并设置一个时间阈值,把相邻时间小于阈值的音符的起点进行合并,当作是一个音符起点,该时间阈值将根据具体的实验结果进行设置。5)音符终点检测:在两个音符起点之间检测音符终点,根据音符起点开始第一帧的短时能量设置阈值,逐帧判断,如果发现短时能量小于阈值的帧则视为音符终点,如果在第二个音符起点之前所有帧的短时能量都大于阈值,则把第二个音符起点视为第一个音符的终点。6)获取音符段:每个音符的起点和终点之间构成一个音符段,音符段包含一个或者多个音符。所述的音符估计模块,负责提取主音符以及和声。其中,包含一个音色滤波器组,与音律滤波器组不同,该音色滤波器组不仅考虑到钢琴88个琴键的基频信息,还考虑到每个琴键对应基频的谐波结构信息,也就是说,该音色滤波器组有88个音色滤波器,每个音色滤波器有多个通带,各个通带的中心频率就是对应琴键的基频及其谐波频率,考虑到低频段基频的谐波数量较多,而高频段基频的谐波数量较少等音色特征,通带的个数将根据对应基频所在频率范围来设定,而通带的带宽由十二平均律来决定,即通带的截止频率为中心频率的相邻半音的频率,由于十二平均律的规定,频率越大,与相邻半音的频率相差越大,因此,在每一个滤波器中,通带的带宽会随着谐波次数的增加而不断变宽。上述提取主音符以及和声的过程为:1)训练琴键单音样本音色矩阵:88个琴键的单音样本,每一个样本在经过傅里叶变换后获取幅度谱,通过音色滤波器组,输出为:其中,Xm(ω)代表第m个单音样本的幅度谱,m的取值范围为[1,88],Gk(ω)代表音色滤波器组中第k个滤波器的传递函数,由于滤波器的数量为88本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的钢琴和声自动编配系统,其特征在于包括音符检测模块、音符估计模块和神经网络模块;音符检测模块负责提取所有音符的起点时间和结束时间,将一首wav格式的钢琴音乐分割成多个音符段,每个音符段包含一个或者多个音符;音符估计模块负责提取每个音符段的主音符以及和声,按照时间顺序拼接得到主音符序列以及和声序列,和声是指多个音符的组合;神经网络模块负责将提取到的主音符序列以及和声序列分别作为输入和输出对神经网络模型进行训练,训练完成后,往模型输入主音符序列,得到对应的和声序列,从而实现和声的自动编配。

【技术特征摘要】
1.一种基于深度学习的钢琴和声自动编配系统,其特征在于包括音符检测模块、音符估计模块和神经网络模块;音符检测模块负责提取所有音符的起点时间和结束时间,将一首wav格式的钢琴音乐分割成多个音符段,每个音符段包含一个或者多个音符;音符估计模块负责提取每个音符段的主音符以及和声,按照时间顺序拼接得到主音符序列以及和声序列,和声是指多个音符的组合;神经网络模块负责将提取到的主音符序列以及和声序列分别作为输入和输出对神经网络模型进行训练,训练完成后,往模型输入主音符序列,得到对应的和声序列,从而实现和声的自动编配。2.根据权利要求1所述一种基于深度学习的钢琴和声自动编配系统,其特征在于音符检测模块,负责提取音符起点和音符终点,将一首音乐分割成多个音符段,每个音符段包含一个或者多个音符;一个音符则为主音符,多个音符则包含一个主音符以及和声;音符检测模块包含一个音律滤波器组,音律滤波器组的带通滤波器数量是88个,带通滤波器的中心频率与钢琴的88个琴键的基频一一对应,截止频率为中心频率的相邻半音的频率。3.根据权利要求2所述一种基于深度学习的钢琴和声自动编配系统,其特征在于,音符检测模块的工作过程为:1)输入wav格式的钢琴音乐,经过归一化、分帧加窗、短时傅里叶变换和对数转换步骤,获取每一帧的对数能量谱;2)通过音律滤波器组获取每帧能量在频率上的分布,得到88维向量,向量中的每一个元素代表对应频率带的能量成分;3)对每一帧获取的88维向量,以帧为单位对向量进行一阶差分,然后对一阶差分求均值;4)音符起点检测:检测一阶差分均值的峰值,该峰值对应的时间就是音符的起点时间,并设置一个时间阈值,把相邻时间小于阈值的音符的起点进行合并,当作是一个音符起点,该时间阈值将根据具体的实验结果进行设置;5)音符终点检测:在两个音符起点之间检测音符终点,根据音符起点开始第一帧的短时能量设置阈值,逐帧判断,如果发现短时能量小于阈值的帧则视为音符终点,如果在第二个音符起点之前所有帧的短时能量都大于阈值,则把第二个音符起点视为第一个音符的终点;6)获取音符段:每个音符的起点和终点之间构成一个音符段,音符段包含一个或者多个音符。4.根据权利要求1所述一种基于深度学习的钢琴和声自动编配系统,其特征在于音符估计模块,负责提取主音符以及和声;该模块包含一个音色滤波器组,与音律滤波器组不同,它不仅考虑到钢琴88个琴键的基频信息,还考虑到每个琴键对应基频的谐波结构信息,该音色滤波器组有88个音色滤波器,每个音色滤波器有多个通带,各个通带的中心频率就是对应琴键的基频及其谐波频率,考虑到低频段基频的谐波数量较多,而高频段基频的谐波数量较少等音色特征,通带的个数将根据对应基频所在频率范围来设定,而通带的带宽由十二平均律来决定,即通带的截止频率为中心频率的相邻半音的频率,由于十二平均律的规定,频率越大,与相邻半音的频率相差越大,因此,在每一个滤波器中,通带的带宽会随着谐波次数的增加而不断变宽。5.根据权利要求4所述一种基于深度...

【专利技术属性】
技术研发人员:韦岗梁世威曹燕
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1