一种乐音识别方法技术

技术编号：21202638 阅读：23 留言：0更新日期：2019-05-25 02:02

本发明专利技术涉及乐音(器乐声音)识别领域，具体涉及一种乐音识别方法，所述乐音识别方法包括步骤：采集大量乐音样本；使用所采集的乐音样本，训练识别音符的音高及其持续时间的乐音自动识别模型；输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集。通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型，乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集，实现对乐音的识别，且识别准确率高，稳定性高，不会受声音遮蔽的影响。

A Method of Music Recognition

The invention relates to the field of music (instrumental sound) recognition, in particular to a method of music recognition, which includes steps: collecting a large number of music samples; using the collected music samples, training an automatic recognition model for recognizing the pitch and duration of a note; inputting the data of the music to be recognized, calling the automatic recognition model for generating a note knot. Guo Ji. By collecting a large number of music samples and using the collected music samples to train the automatic recognition model, the automatic recognition model can recognize the pitch and duration of the notes in the music data to be recognized and generate the result set of the notes, thus realizing the recognition of the music. The recognition accuracy is high and the stability is high, and it will not be affected by the sound masking.

全部详细技术资料下载

【技术实现步骤摘要】
一种乐音识别方法
本专利技术涉及乐音(乐器声音)识别领域，具体涉及一种乐音识别方法。
技术介绍
乐音(声音)识别最早在1977年被人提出，随着音频研究人员们对数字音频工程的了解，这些研究人员相信计算机可以通过一定的算法，来分析数字音乐数据，以此探测到旋律的音高与和弦模式，以及乐器的节奏。传统的乐器识别领域，早期应用最广的是使用一种非负矩阵分解(Nonnegativematrixfactorization,NMF)的算法进行识别。非负矩阵分解由Lee和Seung于1999年在自然杂志上提出，它使分解后的所有分量均为非负值(要求纯加性的描述)，并且同时实现非线性的维数约减。NMF的心理学和生理学构造依据是对整体的感知由对组成整体的部分的感知构成的(纯加性的)，这也符合直观的理解：整体是由部分组成的，因此它在某种意义上抓住了智能数据描述的本质.此外，这种非负性的限制导致了相应描述在一定程度上的稀疏性，稀疏性的表述已被证明是介于完全分布式的描述和单一活跃分量的描述之间的一种有效数据描述形式。NMF目前已被应用到文本分析与聚类、数字水印、人脸检测与识别、图像检索、图像复原、语言建模、声源分类、音乐信号分析与乐器识别、盲信号分离、网络安全、基因及细胞分析等的研究中。但也有一定的局限性：1)NMF假设重构误差服从高斯分布，但是音乐本身存在极端强音和声音阻断情况，并不满足此假设。这种情况下NMF获取的基底表示能力变差，这严重影响基底的表示能力。2)NMF是用一个聚类的方式分解音乐，但是音乐如同自然语言一样，具有上下文之间的概率关系。NMF并没有很好的方法去获取音符上下文关...

【技术保护点】
1.一种乐音识别方法，其特征在于，包括步骤：采集大量乐音样本；使用所采集的乐音样本，训练用于识别音符的音高及其持续时间的乐音自动识别模型；输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集。

【技术特征摘要】
1.一种乐音识别方法，其特征在于，包括步骤：采集大量乐音样本；使用所采集的乐音样本，训练用于识别音符的音高及其持续时间的乐音自动识别模型；输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集。2.根据权利要求1所述的乐音识别方法，其特征在于，所述乐音识别方法还包括步骤：对所采集的大量乐音样本进行统一格式化和转码处理。3.根据权利要求1所述的乐音识别方法，其特征在于，所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型，以及用于预测音符音高的音高预测模型。4.根据权利要求3所述的乐音识别方法，其特征在于，所述训练音符事件预测模型包括步骤：提取所述乐音样本的声音信号特征；将提取的声音信号特征综合输出第一全连接层；使用深度学习算法对第一全连接层的数据进行处理输出音符事件预测结果集。5.根据权利要求4所述的乐音识别方法，其特征在于，所述训练音高预测模型包括步骤：提取所述乐音样本的声音信号特征；将提取的声音信号特征综合输出第...

【专利技术属性】
技术研发人员：钟毅，陆建，刘强，李湘，
申请(专利权)人：深圳蜜蜂云科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人