基于用户示范音频风格的钢琴辅助作曲系统及方法技术方案

技术编号:21852455 阅读:55 留言:0更新日期:2019-08-14 00:47
本发明专利技术提供基于用户示范音频风格的钢琴辅助作曲系统及方法。该系统包括音频处理模块、音符序列映射模块、神经网络模块和智能设备。音频处理模块用来提取音频文件的音符特征;音符序列映射模块将音频文件的音符特征与神经网络输入输出值进行相互映射转换;神经网络模块训练网络模型得到预测模型,帮助用户辅助作曲或者全自动作曲;智能设备是为用户提供上传示范音频、输入音符序列、试听预测生成音符效果功能的人机交互设备。本发明专利技术的钢琴辅助作曲系统,满足用户的个性化需求,生成用户喜欢风格的钢琴曲;同时,可以给专业人士带来创作灵感,帮助没有音乐基础的用户参与到音乐制作中,提高了音乐的娱乐性。

Piano Auxiliary Composition System and Method Based on User Demonstration Audio Style

【技术实现步骤摘要】
基于用户示范音频风格的钢琴辅助作曲系统及方法
本专利技术涉及音乐辅助作曲领域,具体涉及到基于用户示范音频风格的钢琴辅助作曲系统及方法。
技术介绍
目前人工作曲需要掌握基础乐理、曲式、和声等专业知识,才能创作出标记有速度、和弦等基本内容的乐谱。作曲家在作曲的时候往往不是凭空拍脑袋想的,大部分作曲家喜欢用吉他或者钢琴边弹边创作,创作的成品通常是乐谱,上面会标记有速度、和弦等基本内容,以及对编曲风格的一些基本想法。这些对于普通用户来说,作曲专业性和门槛太高。随着移动互联网的发展,大量互联网社交应用出现在人们生活中,用户的分享积极性被提高,这主要是因为图片自动美化和视频自动加特效的广泛应用。对于追求多元社交方式的年轻人来说,用神经网络辅助作一首与自己的示范音频风格相同的钢琴曲,为他们社交分享提供了一种新的选择。同时,文娱市场提出了“泛娱乐”的概念,神经网络辅助作曲可以让更多的普通用户参与到音乐制作中,提高了音乐的娱乐性。
技术实现思路
本专利技术的目的在于提供一种基于用户示范音频风格的钢琴辅助作曲系统及方法,克服目前作曲需要具备专业知识背景、使用门槛高、学习成本大等问题。使用的场景为:首先,用户通过智能设备上传一组示范音频,系统会提取示范音频的音符特征值,神经网络训练模型,得到预测模型,该预测模型可以让预测生成的音符风格与示范音频的风格相同。然后,用户在作曲时,输入一组音符,预测模型会预测下一组音符,辅助用户作曲。另外,普通用户也可以不用输入音符,预测模型会自动生成一段与用户示范音频风格相同的音符序列。本专利技术的目的至少通过如下技术方案之一实现。基于用户示范音频风格的钢琴辅助作曲系统,该系统包括音频处理模块、音符序列映射模块、神经网络模块和智能设备;音频处理模块用来处理用户上传的示范音频,提取音频文件的音符特征,并将特征值数据传递给音符序列映射模块;音符序列映射模块将音频文件的音符特征值与神经网络输入输出值进行相互映射转换,方便上下游各个模块进行数据处理;神经网络模块用示范音频音符特征值数据集去训练模型,得到与示范音频风格相同的预测模型,通过预测模型帮助用户辅助作曲或者全自动作曲;智能设备是为用户提供上传示范音频、输入音符序列、试听预测生成音符效果的人机交互设备。所述的音频处理模块,运用基于十二平均律设计的88个滤波器组阵列来提取音频的基频特征;首先对音频进行分帧和加窗,对每一个短时分析窗的音频,通过傅里叶变换得到对应的频谱,将上面的频谱通过基于十二平均律设计的88个滤波器组阵列,每通过一组滤波器,就得到一个滤波信号,该滤波信号的能量作为输出值,则一共有88个输出值,找出最大的输出值,如果小于设定的阈值,该帧则为静音段,不包含基频特征;如果大于设定的阈值,找出最大的输出值对应的滤波器组,该滤波器组的第一个滤波器的中心频率就是该帧估计的基频。上述基于十二平均律设计的88个滤波器组阵列基于音乐的音律特性。十二平均律,世界上通用的把一组音分成十二个半音音程的律制,各相邻两律之间的振动数之比完全相等。十二平均律是指将八度的音程按频率等比例地分成十二等份,每一等份称为一个半音即小二度。一个大二度则是两等份。十二平均律在交响乐队和键盘乐器中得到广泛使用,现在的钢琴即是根据十二平均律来定音的。上述88个滤波器组阵列设计的原理参照钢琴88个键的频率,这是因为钢琴就是按照十二平均律设计的。琴键的基频是按几何级数排列的,其中几何级数的公比q=21/12,后一个琴键的基频是前一个琴键基频的q倍。每一个琴键有一个基频值对应,比如中央C的基频为261.6Hz,但是每个琴键发出的音频信号除了含有基频以外,还有倍频等谐波成分。故本系统所用的滤波器组阵列是一个88×m的阵列,一共有88组滤波器,每组由m个三角滤波器或者其它形状的滤波器组成,且m可以不同;每组的第一个滤波器的中心频率fi为钢琴每个琴键所对应的基频,也就是从27.5Hz到4186.0Hz,按照十二平均律取值;第i组的m个滤波器的中心频率分别为fi,2fi,3fi,4fi,…,mfi,每个滤波器带宽都为2fi;m按照人耳可听的频率范围最大值fmax=20KHz来取值,m=fmax/fi;音频通过每组滤波器,就得到一个滤波信号,该滤波信号的能量作为输出值,则一共有88个输出值,找出最大的输出值,如果小于设定的阈值,该帧则为静音段,不包含基频特征;如果大于设定的阈值,找出最大的输出值对应滤波器组,该滤波器组的第一个滤波器的中心频率fi就是该帧估计的基频;用户上传的示范音频按帧划分,则处理后每帧得到一个估计的基频,再根据基频和音符的对应关系,从示范音频中提取出音符序列。所述的音符序列映射模块用于音符序列和神经网络输入输出数据之间进行映射转化。音频处理模块提取的特征值可以和音符进行一一对应,但是这些音符序列并不能直接作为神经网络的输入值。同时,神经网络的输出值并不能直接作为音符序列去辅助作曲。音符序列映射模块就是在建立一种音符序列和神经网络输入输出值之间的映射关系,在训练模型时,音符序列被转换成特定的数字标识序列,然后将处理的数字序列输入到神经网络模块进行训练。在辅助作曲时,预测模型输出的数字序列,通过音符序列映射模块查找映射表,转换成音符序列。所述神经网络模块用来训练模型,得到预测模型;通过预测模型生成音符序列。音乐是一种具有上下文关联的序列关系,循环神经网络在处理序列数据方面有着不可替代的优势,目前已经广泛地应用在了自然语言处理领域。循环神经网络是具有短期记忆能力,其神经元不但可以接受其它神经元的信息,也可接受自身的信息,形成具有环路的网络结构,这种结构使得循环神经网络在理论上可以处理任意长度的序列数据。但是,在训练过程中会发生了梯度消失或梯度爆炸等问题。梯度消失会导致我们的神经网络中前面层的网络权重无法得到更新,就会停止学习。梯度爆炸会使得学习不稳定,参数变化太大导致无法获取最有效参数。长短期记忆网络是循环神经网络的一个变体,可以有效地解决循环神经网络的这两个问题。上述神经网络模块,具体的网络构建如下:用长短期记忆网络层来构造和训练一个神经网络,该网络接收一个长度固定的音符序列并输出一个音符预测值;训练数据集来自于用户上传的示范音频,示范音频经过音频处理模块,得到表示音频特征的音符数据集,通过音符序列映射后,得到音符数字标识序列数据集,这组数据集用来作为神经网络的训练数据集。上述神经网络模块训练模型,得到预测模型的过程为:示范音频文件通过音频处理模块和音符序列映射模块后,得到了神经网络训练数据集。从数据集中的第一个音符开始选择连续的n个音符作为输入序列,通过神经网络去预测第n+1个音符,与数据集中的第n+1个音符值进行对比,计算误差;接着,从数据集中第二个音符开始选择连续的n个音符作为输入序列,通过神经网络去预测第n+2个音符,与数据集中的第n+2个音符值进行对比,计算误差;然后,将数据集所有音符按以上方式迭代完,并且进行多轮这样的操作;最后,得到损失最小的神经网络权重系数文件。整个过程完成后,得到的预测模型就具备预测生成与用户示范音频风格相同的音符序列的能力。上述神经网络模块通过预测模型预测生成音符序列过程:这里要分两种情况,第一种是辅助作曲,适用于有一定音乐基础的人士,示范音频本文档来自技高网...

【技术保护点】
1.基于用户示范音频风格的钢琴辅助作曲系统,其特征在于包括音频处理模块、音符序列映射模块、神经网络模块和智能设备;音频处理模块用来处理用户上传的示范音频,提取音频文件的音符特征,并将特征值数据传递给音符序列映射模块;音符序列映射模块将音频文件的音符特征值与神经网络输入输出值进行相互映射转换;神经网络模块用示范音频音符特征值数据集去训练模型,得到与示范音频风格相同的预测模型,通过预测模型帮助用户辅助作曲或者全自动作曲;智能设备与向音频处理模块、音符序列映射模块连接,用于用户上传示范音频、输入音符序列、试听预测生成音符效果。

【技术特征摘要】
1.基于用户示范音频风格的钢琴辅助作曲系统,其特征在于包括音频处理模块、音符序列映射模块、神经网络模块和智能设备;音频处理模块用来处理用户上传的示范音频,提取音频文件的音符特征,并将特征值数据传递给音符序列映射模块;音符序列映射模块将音频文件的音符特征值与神经网络输入输出值进行相互映射转换;神经网络模块用示范音频音符特征值数据集去训练模型,得到与示范音频风格相同的预测模型,通过预测模型帮助用户辅助作曲或者全自动作曲;智能设备与向音频处理模块、音符序列映射模块连接,用于用户上传示范音频、输入音符序列、试听预测生成音符效果。2.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统,其特征在于音频处理模块,运用基于十二平均律设计的88个滤波器组阵列来提取音频的基频特征;首先对音频进行分帧和加窗,对每一个短时分析窗的音频,通过傅里叶变换得到对应的频谱,将上面的频谱通过基于十二平均律设计的88个滤波器组阵列,每通过一组滤波器,就得到一个滤波信号,该滤波信号的能量作为输出值,则一共有88个输出值,找出最大的输出值,如果小于设定的阈值,该帧则为静音段,不包含基频特征;如果大于设定的阈值,找出最大的输出值对应的滤波器组,该滤波器组的第一个滤波器的中心频率就是该帧估计的基频。3.根据权利要求2所述基于用户示范音频风格的钢琴辅助作曲系统,其特征在于所述滤波器组阵列是一个88×m的阵列,一共有88组滤波器,每组由m个三角滤波器或者其它形状的滤波器组成,且m值不固定;每组的第一个滤波器的中心频率i为钢琴每个琴键所对应的基频,也就是从27.5Hz到4186.0Hz,按照十二平均律取值,其中i表示对应第i组滤波器;第组的m个滤波器的中心频率分别为fi,2fi,3fi,4fi,…,mfi,每个滤波器带宽都为2fi;按照人耳可听的频率范围最大值fmax=20KHz来取值,m=fmax/fi;音频通过每组滤波器,就得到一个滤波信号,该滤波信号的能量作为输出值,则一共有88个输出值,找出最大的输出值,如果小于设定的阈值,该帧则为静音段,不包含基频特征;如果大于设定的阈值,找出最大的输出值对应滤波器组,该滤波器组的第一个滤波器的中心频率fi就是该帧估计得到的基频;用户上传的示范音频按帧划分,则处理后每帧得到一个估计的基频,再根据基频和音符的对应关系,从示范音频中提取出音符序列。4.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统,其特征在于音符序列映射模块用于音符序列和神经网络输入输出数据之间进行映射转化;在训练模型时,音符序列被转换成特定的数字标识序列,然后将处理的数字序列输入到神经网络模块进行训练;在辅助作曲时,预测模型输出的数字序列,通过音符序列映射模块查找映射表,转换成音符序列。5.根据权利要求1所述基于用户示范音频风格的钢琴辅助作曲系统,其特征在于神经网络模块用来训练得到预测模型;通过预测模型生成音符序列;具体的网络构建如下:用长短期记忆网络层来构造和训练一个神经网络,该神经网络接收一个长度固定的音符序列并输出一个音符预测值;训练数据集来自于用户上传的示范音频,示范音频经过音频处理模块,得到表示音频特征的音符数据集,通过音符序列映射后,得到音符数字标识序列数据集,这组数据集用来作为神经网络的训练数...

【专利技术属性】
技术研发人员:曹燕别碧耀韦岗
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1