基于听觉特性的音乐适用场景自动分类方法技术

技术编号：18914728 阅读：31 留言：0更新日期：2018-09-12 03:21

本发明专利技术提供了基于听觉特性的音乐适用场景自动分类方法。该方法将人耳听觉特性、数字音频信号处理、机器学习结合在一起，其特征在于如下方法：首先，将音乐进行切片操作，把音乐切成等长时间音乐，得到等长时间音乐，以便后面的操作；然后，利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理，提取特征得到滤波系数；接着，再把滤波系数经过动态可变长度窗处理得到窗口系数；然后把窗口系数再经过非线性响应变换，换成感知响度系数便能得到听觉特性倒谱系数；最后，对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。本发明专利技术具有性能稳定、准确率更高、实时性能好等优点，可以适用于音频信号特征提取和分类等领域。

Automatic classification method of music application scene based on auditory characteristics

The invention provides a music application scene automatic classification method based on auditory characteristics. This method combines human auditory characteristics, digital audio signal processing and machine learning. It is characterized by the following methods: firstly, the music is sliced into equal-time music, and the same-time music is obtained for later operation; secondly, the auditory characteristics based on wavelet transform are used to filter. Wave filters the same length music and extracts the features to get the filtering coefficients; then, the filtering coefficients are processed by the dynamic variable length window to get the window coefficients; and then the window coefficients are transformed into the perceptual loudness coefficients to get the auditory characteristic cepstrum coefficients; finally, the above mentioned cepstrum coefficients are obtained. Cepstral coefficients of auditory features are learned by using convolutional neural network based on auditory characteristics. The invention has the advantages of stable performance, higher accuracy and good real-time performance, and can be applied to the fields of audio signal feature extraction and classification.

全部详细技术资料下载

【技术实现步骤摘要】
基于听觉特性的音乐适用场景自动分类方法
本专利技术涉及音频数字信号处理、卷积神经网络、机器学习等
，具体涉及基于听觉特性的音乐适用场景自动分类方法。
技术介绍
随着现代社会经济快速发展，人们的娱乐生活悄然的改变,人们越来越多的通过音乐使自己的生活变得多姿多彩。人们对音乐的依赖性较高,音乐已经成为人们生活中不可缺少的一部分。随着音乐数量日益增大，音乐的风格也日益多种多样，这使得人们从中挑出自己当前想听或者有益的音乐的难度增大。常用的音乐分类都是针对音乐的流派、音乐的感情、音乐适用场景进行分类。音乐流派分类是根据音乐风格，编曲上运用了哪些音乐元素(节奏，律动，和声，调音音节，配器等)而呈现出不同的音乐特色来划分的。音乐感情分类是根据音乐的节奏、歌词、情感来针对感情进行划分。音乐适用场景分类是根据音乐的节奏、律动、乐器来针对适用场景来进行分类。本专利直接对音乐适用的场景进行分类，用户不需要过多的思考，只需要结合自己的场景就可以得到最合适的音乐，从而提升人们音乐体验，改善人们生活，让人们更好的得到自己想要的音乐。良好的音乐自动分类可以减少人们听到不喜欢的音乐几率，让人们更容易听到合适喜欢的音乐，使人们的精神生活日益丰富，更好的走向小康社会。目前主流音乐分类方法是人工手动标记分类方法，人工智能自动分类方法。人工手动标记分类方法是最常见、历史最悠久的音乐分类方法。其中有音乐专家的音乐标记分类，大众人们对音乐的标签评价分类等等。人工手动标记分类方法执行简单，准确率相对不错，分类效果也稳定优秀。但是人工手动标记分类方法需要有音乐修养或者专业音乐人士来进行分类，同时人...

【技术保护点】
1.基于听觉特性的音乐适用场合自动分类方法，其特征在于包括如下步骤：首先，将音乐进行切片操作，把音乐切成等长时间音乐，得到等长时间音乐；然后，利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理，提取特征得到滤波系数；接着，再把滤波系数经过动态可变长度窗处理得到窗口系数；然后把窗口系数再经过非线性响应变换，换成感知响度系数便能得到听觉特性倒谱系数；最后，对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。

【技术特征摘要】
1.基于听觉特性的音乐适用场合自动分类方法，其特征在于包括如下步骤：首先，将音乐进行切片操作，把音乐切成等长时间音乐，得到等长时间音乐；然后，利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理，提取特征得到滤波系数；接着，再把滤波系数经过动态可变长度窗处理得到窗口系数；然后把窗口系数再经过非线性响应变换，换成感知响度系数便能得到听觉特性倒谱系数；最后，对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。2.根据权利要求1所述的基于听觉特性的音乐适用场合自动分类方法，其特征在于：听觉特性倒谱系数的提取过程把听觉特性滤波器、动态可变长度窗、非线性响度变换结合在一起，模拟了音频信号在人耳传播的过程。3.根据权利要求1所述的基于听觉特性的音乐适用场合自动分类方法，其特征在于：基于听觉特性的卷积神经网络的卷积核不再全局共享，而在符合人耳听觉特性的各个频域区域内共享卷积核，从而完成时频特性中各个频域分量差异性的识别；各个频域区域内的卷积核只负责学习该频域区域的特征，因此能学习到更多细节特征，使分类更准确，由此克服卷积神经网络无法识别出时频特性中各个频域具有的差异性的缺陷。4.根据权利要求1所述的基于听觉特性的音乐适用场景自动分类方法，其特征在于通过音频信号特征提取模块和分类识别模块实现；所述的音频信号特征提取模块用于提取音频信号的听觉特性倒谱系数，主要采用基于小波变换的听觉特性滤波器方法，具体包括：首先对输入的音频进行切割，得到等长的音频信号；然后利用基于小波变换的听觉特性滤波器对等长的音频信号进行特征提取，得到滤波系数；接着动态可变长度窗处理对滤波系数进行处理，得到窗口系数；然后把窗口系数再经过非线性响应变换，变换成感知响度系数便能得到听觉特性倒谱系数。5.根据权利要求4所述的基于听觉特性的音乐适用场景自动分类方法，其特征在于所...

【专利技术属性】
技术研发人员：韦岗，李增，马碧云，梁舒，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人