一种基于深度学习的钢琴和声自动编配系统及方法技术方案

技术编号：21895717 阅读：23 留言：0更新日期：2019-08-17 16:01

本发明专利技术提供一种基于深度学习的钢琴和声自动编配系统及方法。该系统包括三个模块：音符检测模块、音符估计模块和神经网络模块。音符检测模块负责提取音符起点和音符终点，将一首音乐分割成多个音符段，每个音符段包含一个或者多个音符。音符估计模块负责提取每个音符段的主音符以及和声。神经网络模块负责将上述的主音符序列以及和声序列分别作为神经网络的输入以及输出进行训练，训练完成后神经网络便具有为主音符编配和声的能力，从而实现和声自动编配。本发明专利技术利用钢琴按键的音高以及谐波结构信息，使得音符检测以及音符估计的性能得到提高，同时可根据用户的喜好训练特定音乐，从而编配对应风格的和声。

A Piano Harmony Automatic Arrangement System and Method Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的钢琴和声自动编配系统及方法
本专利技术涉及到信号滤波器组分析、音乐信号主音符估计、和声估计、循环神经网络等
，具体涉及一种基于深度学习的钢琴和声自动编配系统及方法。
技术介绍
主旋律以及和声在音乐中都占有重要的地位。其中，主旋律是按一定的音高、时值和音量构成的音符序列，而和声是多个音符的结合，对音乐特色的展示以及对人类情感的表达都发挥巨大作用。一方面，为主旋律编配和声，涉及到基础乐理以及和声规则等专业知识，需要具备丰富音乐知识的专业人员才能胜任此工作，对于普通用户来说，技术门槛要求较高。另一方面，音乐的形式和风格多种多样，每个人都会对某些特定风格有所偏爱，因此，相同的一段旋律，可以根据不同的风格为主旋律编配不同的和声，从而满足用户个性化需求。从wav格式的钢琴音乐中提取主旋律以及和声，首先要检测音符的起点时间和结束时间，检测准确率将直接影响后面的音符估计性能。以往音符起点检测有以下方法：基于短时能量和过零率、基于相位特征、基于频谱差值和高频加权成分分析等。其中，通过短时能量和过零率来判断音符起点是借鉴语音信号的做法，准确率不高；基于相位特征的方法易受低频能量噪声影响，不适合钢琴这种复调音乐；基于频谱差值的方法需要处理大量频率点，计算量较大；高频加权成分分析方法由于赋予高频较大的加权系数，会导致低频能量难以检测。另外，上述方法都没有考虑到具体的乐音特征，抑制了音高信息，从而降低对钢琴的音符起点检测性能。其次，在检测完音符起点时间和结束时间后，需要进行音符估计，包括主音符估计以及和声估计，按照时间顺序拼接即可得到主音符序列以及和声序列。...

【技术保护点】
1.一种基于深度学习的钢琴和声自动编配系统，其特征在于包括音符检测模块、音符估计模块和神经网络模块；音符检测模块负责提取所有音符的起点时间和结束时间，将一首wav格式的钢琴音乐分割成多个音符段，每个音符段包含一个或者多个音符；音符估计模块负责提取每个音符段的主音符以及和声，按照时间顺序拼接得到主音符序列以及和声序列，和声是指多个音符的组合；神经网络模块负责将提取到的主音符序列以及和声序列分别作为输入和输出对神经网络模型进行训练，训练完成后，往模型输入主音符序列，得到对应的和声序列，从而实现和声的自动编配。

【技术特征摘要】
1.一种基于深度学习的钢琴和声自动编配系统，其特征在于包括音符检测模块、音符估计模块和神经网络模块；音符检测模块负责提取所有音符的起点时间和结束时间，将一首wav格式的钢琴音乐分割成多个音符段，每个音符段包含一个或者多个音符；音符估计模块负责提取每个音符段的主音符以及和声，按照时间顺序拼接得到主音符序列以及和声序列，和声是指多个音符的组合；神经网络模块负责将提取到的主音符序列以及和声序列分别作为输入和输出对神经网络模型进行训练，训练完成后，往模型输入主音符序列，得到对应的和声序列，从而实现和声的自动编配。2.根据权利要求1所述一种基于深度学习的钢琴和声自动编配系统，其特征在于音符检测模块，负责提取音符起点和音符终点，将一首音乐分割成多个音符段，每个音符段包含一个或者多个音符；一个音符则为主音符，多个音符则包含一个主音符以及和声；音符检测模块包含一个音律滤波器组，音律滤波器组的带通滤波器数量是88个，带通滤波器的中心频率与钢琴的88个琴键的基频一一对应，截止频率为中心频率的相邻半音的频率。3.根据权利要求2所述一种基于深度学习的钢琴和声自动编配系统，其特征在于，音符检测模块的工作过程为：1)输入wav格式的钢琴音乐，经过归一化、分帧加窗、短时傅里叶变换和对数转换步骤，获取每一帧的对数能量谱；2)通过音律滤波器组获取每帧能量在频率上的分布，得到88维向量，向量中的每一个元素代表对应频率带的能量成分；3)对每一帧获取的88维向量，以帧为单位对向量进行一阶差分，然后对一阶差分求均值；4)音符起点检测：检测一阶差分均值的峰值，该峰值对应的时间就是音符的起点时间，并设置一个时间阈值，把相邻时间小于阈值的音符的起点进行合并，当作是一个音符起点，该时间阈值将根据具体的实验结果进行设置；5)音符终点检测：在两个音符起点之间检测音符终点，根据音符起点开始第一帧的短时能量设置阈值，逐帧判断，如果发现短时能量小于阈值的帧则视为音符终点，如果在第二个音符起点之前所有帧的短时能量都大于阈值，则把第二个音符起点视为第一个音符的终点；6)获取音符段：每个音符的起点和终点之间构成一个音符段，音符段包含一个或者多个音符。4.根据权利要求1所述一种基于深度学习的钢琴和声自动编配系统，其特征在于音符估计模块，负责提取主音符以及和声；该模块包含一个音色滤波器组，与音律滤波器组不同，它不仅考虑到钢琴88个琴键的基频信息，还考虑到每个琴键对应基频的谐波结构信息，该音色滤波器组有88个音色滤波器，每个音色滤波器有多个通带，各个通带的中心频率就是对应琴键的基频及其谐波频率，考虑到低频段基频的谐波数量较多，而高频段基频的谐波数量较少等音色特征，通带的个数将根据对应基频所在频率范围来设定，而通带的带宽由十二平均律来决定，即通带的截止频率为中心频率的相邻半音的频率，由于十二平均律的规定，频率越大，与相邻半音的频率相差越大，因此，在每一个滤波器中，通带的带宽会随着谐波次数的增加而不断变宽。5.根据权利要求4所述一种基于深度...

【专利技术属性】
技术研发人员：韦岗，梁世威，曹燕，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人