一种乐音识别方法技术

技术编号:21202638 阅读:23 留言:0更新日期:2019-05-25 02:02
本发明专利技术涉及乐音(器乐声音)识别领域,具体涉及一种乐音识别方法,所述乐音识别方法包括步骤:采集大量乐音样本;使用所采集的乐音样本,训练识别音符的音高及其持续时间的乐音自动识别模型;输入待识别乐音数据,调用所述乐音自动识别模型,生成音符结果集。通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型,乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集,实现对乐音的识别,且识别准确率高,稳定性高,不会受声音遮蔽的影响。

A Method of Music Recognition

The invention relates to the field of music (instrumental sound) recognition, in particular to a method of music recognition, which includes steps: collecting a large number of music samples; using the collected music samples, training an automatic recognition model for recognizing the pitch and duration of a note; inputting the data of the music to be recognized, calling the automatic recognition model for generating a note knot. Guo Ji. By collecting a large number of music samples and using the collected music samples to train the automatic recognition model, the automatic recognition model can recognize the pitch and duration of the notes in the music data to be recognized and generate the result set of the notes, thus realizing the recognition of the music. The recognition accuracy is high and the stability is high, and it will not be affected by the sound masking.

【技术实现步骤摘要】
一种乐音识别方法
本专利技术涉及乐音(乐器声音)识别领域,具体涉及一种乐音识别方法。
技术介绍
乐音(声音)识别最早在1977年被人提出,随着音频研究人员们对数字音频工程的了解,这些研究人员相信计算机可以通过一定的算法,来分析数字音乐数据,以此探测到旋律的音高与和弦模式,以及乐器的节奏。传统的乐器识别领域,早期应用最广的是使用一种非负矩阵分解(Nonnegativematrixfactorization,NMF)的算法进行识别。非负矩阵分解由Lee和Seung于1999年在自然杂志上提出,它使分解后的所有分量均为非负值(要求纯加性的描述),并且同时实现非线性的维数约减。NMF的心理学和生理学构造依据是对整体的感知由对组成整体的部分的感知构成的(纯加性的),这也符合直观的理解:整体是由部分组成的,因此它在某种意义上抓住了智能数据描述的本质.此外,这种非负性的限制导致了相应描述在一定程度上的稀疏性,稀疏性的表述已被证明是介于完全分布式的描述和单一活跃分量的描述之间的一种有效数据描述形式。NMF目前已被应用到文本分析与聚类、数字水印、人脸检测与识别、图像检索、图像复原、语言建模、声源分类、音乐信号分析与乐器识别、盲信号分离、网络安全、基因及细胞分析等的研究中。但也有一定的局限性:1)NMF假设重构误差服从高斯分布,但是音乐本身存在极端强音和声音阻断情况,并不满足此假设。这种情况下NMF获取的基底表示能力变差,这严重影响基底的表示能力。2)NMF是用一个聚类的方式分解音乐,但是音乐如同自然语言一样,具有上下文之间的概率关系。NMF并没有很好的方法去获取音符上下文关联,并将这一关系应用在乐音(声音)识别上。3)该算法不具备应对不同器乐,识别不同器乐数据的能力,识别能力单一。综上原因,NMF算法在的乐音(声音)识别上对音高和音长的准确率一般,在已知的复调音乐识别应用中,识别准确率维持在50%-70%之间,且波动较大,存在不稳定性,这极大的限制了乐音(声音)识别在音乐领域的应用空间。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种乐音识别方法,克服现有的使用NMF算法识别乐音的识别准确率不高,波动大,存在不稳定性的问题。本专利技术解决其技术问题所采用的技术方案是:提供一种乐音识别方法,包括步骤:采集大量乐音样本;使用所采集的乐音样本,训练用于识别音符的音高及其持续时间的乐音自动识别模型;输入待识别乐音数据,调用所述乐音自动识别模型,生成音符结果集本专利技术的更进一步优选方案是:所述乐音识别方法还包括步骤:对所采集的大量乐音样本进行统一格式化和转码处理。本专利技术的更进一步优选方案是:所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型,以及用于预测音符音高的音高预测模型。本专利技术的更进一步优选方案是:所述训练音符事件预测模型包括步骤:提取所述乐音样本的声音信号特征;将提取的声音信号特征综合输出第一全连接层;使用深度学习算法对第一全连接层的数据进行处理输出音符事件预测结果集。本专利技术的更进一步优选方案是:所述训练音高预测模型包括步骤:提取所述乐音样本的声音信号特征;将提取的声音信号特征综合输出第二全连接层;使用深度学习算法对第二全连接层的数据和第一全连接层中的音符事件位置信息进行处理输出音高结果集。本专利技术的更进一步优选方案是:所述乐音识别方法还包括步骤:通过迁移学习训练适合不同器乐的乐音自动识别模型。本专利技术的更进一步优选方案是:所述乐音识别方法还包括步骤:使用NMF算法对生成的音符结果集进行验证,过滤未验证通过的预测结果,并输出最终的音符结果集。本专利技术的更进一步优选方案是:所述乐音识别方法还包括步骤:将音符结果集转换为音乐的结构化数据。本专利技术的更进一步优选方案是:所述乐音样本包括数字音频数据集文件和与数字音频数据集文件对应的标签数据文件,所述标签数据文件包括音高、乐音强弱数据、音符开始时间和音符结束时间。本专利技术的更进一步优选方案是:所述乐音识别方法还包括步骤:通过输入新的乐音样本对已训练的乐音自动识别模型进行优化。本专利技术的有益效果在于,通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型,乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集,实现对乐音的识别,且识别准确率高,稳定性高,不会受声音遮蔽的影响;以及,通过迁移学习训练适合不同器乐的乐音自动识别模型,分别识别不同乐器的乐音,适应性强;以及,通过输入新的乐音样本对已训练的乐音自动识别模型进行优化,提高识别准确率。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术的乐音识别方法的流程框图;图2是本专利技术的乐音识别方法的具体流程框图;图3是本专利技术的训练音符事件预测模型的流程框图;图4是本专利技术的训练音高预测模型的流程框图。具体实施方式现结合附图,对本专利技术的较佳实施例作详细说明。如图1至图4所示,本专利技术提供一种乐音识别方法的优选实施例。所述乐音识别方法包括步骤:S10、采集大量乐音样本;S20、使用所采集的乐音样本,训练用于识别音符的音高及其持续时间的乐音自动识别模型;S30、输入待识别乐音数据,调用所述乐音自动识别模型,生成音符结果集。通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型,乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集,实现对乐音的识别,且识别准确率高,稳定性高,不会受声音遮蔽的影响。其中,所述乐音识别方法还包括步骤:对所采集的大量乐音样本进行统一格式化和转码处理。通常地,所采集到的乐音样本的采样频率较高,使用采样频率较高的乐音样本训练乐音自动识别模型,具有更高的识别准确率。但有数据量大,训练成本高且存在信息干扰的问题。本实施例中采用统一乐音样本的数据格式标准,通过对采集的大量乐音样本进行统一格式化和转码处理,转换为较低采样频率的乐音样本,可降低数据量,大大降低后续训练乐音自动识别模型的成本,降低音频提升采样频率带来的信息干扰;以及,在乐音识别的实际业务场景中,较低采样频率的模型,对网络带宽,存储,运算算力的要求都会有所降低,适应性更强。具体地,所采集的乐音文本的存储格式通常为wav格式,其采样频率为44100Hz或者48000Hz的数据。采集的乐音样本通过统一格式化和转码处理后输出为wav格式,采样频率为11025Hz的单通道数据,便于后续训练乐音自动识别模型。当然,采样频率也可以是22050Hz。在输入待识别乐音数据后,需要对待识别乐音数据进行处理,对其进行格式化处理,转换为与所处理后的采集乐音样本数据格式标准相同的待识别乐音数据,再将其输入乐音自动识别模型进行处理。本实施例中,所采集的乐音样本包括数字音频数据集文件和与数字音频数据集文件对应的标签数据文件。其中,所述标签数据文件包括音高、乐音强弱数据、音符开始时间和音符结束时间。本实施例中,所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型,以及用于预测音符音高的音高预测模型。通过采集大量乐音样本处理训练音符事件预测模型,可以预测在具体时间点上是否发生了一个音符事件,训练音高预测模型,在对应时间帧上预测音高。待识别乐音数据输入,经这两个模型处理后,本文档来自技高网
...

【技术保护点】
1.一种乐音识别方法,其特征在于,包括步骤:采集大量乐音样本;使用所采集的乐音样本,训练用于识别音符的音高及其持续时间的乐音自动识别模型;输入待识别乐音数据,调用所述乐音自动识别模型,生成音符结果集。

【技术特征摘要】
1.一种乐音识别方法,其特征在于,包括步骤:采集大量乐音样本;使用所采集的乐音样本,训练用于识别音符的音高及其持续时间的乐音自动识别模型;输入待识别乐音数据,调用所述乐音自动识别模型,生成音符结果集。2.根据权利要求1所述的乐音识别方法,其特征在于,所述乐音识别方法还包括步骤:对所采集的大量乐音样本进行统一格式化和转码处理。3.根据权利要求1所述的乐音识别方法,其特征在于,所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型,以及用于预测音符音高的音高预测模型。4.根据权利要求3所述的乐音识别方法,其特征在于,所述训练音符事件预测模型包括步骤:提取所述乐音样本的声音信号特征;将提取的声音信号特征综合输出第一全连接层;使用深度学习算法对第一全连接层的数据进行处理输出音符事件预测结果集。5.根据权利要求4所述的乐音识别方法,其特征在于,所述训练音高预测模型包括步骤:提取所述乐音样本的声音信号特征;将提取的声音信号特征综合输出第...

【专利技术属性】
技术研发人员:钟毅陆建刘强李湘
申请(专利权)人:深圳蜜蜂云科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1