基于听觉特性的音乐适用场景自动分类方法技术

技术编号:18914728 阅读:31 留言:0更新日期:2018-09-12 03:21
本发明专利技术提供了基于听觉特性的音乐适用场景自动分类方法。该方法将人耳听觉特性、数字音频信号处理、机器学习结合在一起,其特征在于如下方法:首先,将音乐进行切片操作,把音乐切成等长时间音乐,得到等长时间音乐,以便后面的操作;然后,利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理,提取特征得到滤波系数;接着,再把滤波系数经过动态可变长度窗处理得到窗口系数;然后把窗口系数再经过非线性响应变换,换成感知响度系数便能得到听觉特性倒谱系数;最后,对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。本发明专利技术具有性能稳定、准确率更高、实时性能好等优点,可以适用于音频信号特征提取和分类等领域。

Automatic classification method of music application scene based on auditory characteristics

The invention provides a music application scene automatic classification method based on auditory characteristics. This method combines human auditory characteristics, digital audio signal processing and machine learning. It is characterized by the following methods: firstly, the music is sliced into equal-time music, and the same-time music is obtained for later operation; secondly, the auditory characteristics based on wavelet transform are used to filter. Wave filters the same length music and extracts the features to get the filtering coefficients; then, the filtering coefficients are processed by the dynamic variable length window to get the window coefficients; and then the window coefficients are transformed into the perceptual loudness coefficients to get the auditory characteristic cepstrum coefficients; finally, the above mentioned cepstrum coefficients are obtained. Cepstral coefficients of auditory features are learned by using convolutional neural network based on auditory characteristics. The invention has the advantages of stable performance, higher accuracy and good real-time performance, and can be applied to the fields of audio signal feature extraction and classification.

【技术实现步骤摘要】
基于听觉特性的音乐适用场景自动分类方法
本专利技术涉及音频数字信号处理、卷积神经网络、机器学习等
,具体涉及基于听觉特性的音乐适用场景自动分类方法。
技术介绍
随着现代社会经济快速发展,人们的娱乐生活悄然的改变,人们越来越多的通过音乐使自己的生活变得多姿多彩。人们对音乐的依赖性较高,音乐已经成为人们生活中不可缺少的一部分。随着音乐数量日益增大,音乐的风格也日益多种多样,这使得人们从中挑出自己当前想听或者有益的音乐的难度增大。常用的音乐分类都是针对音乐的流派、音乐的感情、音乐适用场景进行分类。音乐流派分类是根据音乐风格,编曲上运用了哪些音乐元素(节奏,律动,和声,调音音节,配器等)而呈现出不同的音乐特色来划分的。音乐感情分类是根据音乐的节奏、歌词、情感来针对感情进行划分。音乐适用场景分类是根据音乐的节奏、律动、乐器来针对适用场景来进行分类。本专利直接对音乐适用的场景进行分类,用户不需要过多的思考,只需要结合自己的场景就可以得到最合适的音乐,从而提升人们音乐体验,改善人们生活,让人们更好的得到自己想要的音乐。良好的音乐自动分类可以减少人们听到不喜欢的音乐几率,让人们更容易听到合适喜欢的音乐,使人们的精神生活日益丰富,更好的走向小康社会。目前主流音乐分类方法是人工手动标记分类方法,人工智能自动分类方法。人工手动标记分类方法是最常见、历史最悠久的音乐分类方法。其中有音乐专家的音乐标记分类,大众人们对音乐的标签评价分类等等。人工手动标记分类方法执行简单,准确率相对不错,分类效果也稳定优秀。但是人工手动标记分类方法需要有音乐修养或者专业音乐人士来进行分类,同时人工手动标记分类方法过多依赖于工作人员的水平和爱好,工作人员的差异性导致分类标准不一致,而且人工手动标记分类方法工作量大,重复性高,对人力来说是一种浪费,即耗时还耗人力,所以随着科技信息技术的进步,人工智能自动分类方法慢慢被用于音乐分类上。人工智能自动分类方法被用于音乐分类上主要有两个关键步骤:①音频信号特征提取工程,②根据特征进行分类识别过程。首先,音频信号特征提取工程目前主流方法有:1)根据音频特征(例如:声强、响度等)选择相对应的计算公式直接计算相对应的特征值,其优点是:计算方便,特征值代表的音频信息特征清晰可解释性好。缺点是:提取的特征单一,需要音乐专家和信息专家人为的设计特征的计算方式,特征表达能力不够强,特征不够全面。2)根据音频信号生成声谱图或者梅尔频谱图等时频特征系数,其主要用到的技术是短时傅里叶变换。首先对音频信号进行分帧操作,使音频信号被切割成一帧一帧的信号,便于后面处理;接着对每一帧的音频信号进行加窗处理,完成对每一帧的音频信号进行预处理;然后对加窗预处理后的音频信号进行傅里叶变换,得到频率特性;最后把每一帧的傅里叶变换系数拼接起来便得到了时频图。短时傅里叶变换是为克服傅里叶变换无法处理非稳定信号提出来的,但是短时傅里叶变换是一种基于窗函数的变换,一般来说,短窗能够提供较好的时域解析度,长窗能够提供较好的频域解析度。这导致其实在研究过程中,还是只能侧重一种研究角度,无法同时在时间域和频域上得到很好的解析。然后,根据特征进行分类识别过程常用的方法有:1)传统机器学习分类识别算法,例如:逻辑斯谛回归、支持向量机、随机森林、聚类等算法。其优点在于数学知识推导严谨,原理清晰简单,小数据量的情况下便能得到稳定不错的分类效果。但缺点是:传统机器学习分类识别算法的性能随着数据的增加很快到达瓶颈而不能继续变好,其根本原因在于传统机器学习分类识别算法表达能力不够强、可宽展性不够好。同时传统机器学习分类识别算法对提取的特征几乎不再进行更深层次的学习,所以对特征提取工程的要求高。而目前音频信号的特征工程提取的特征还无法做到全面不漏的提取所有音频特征,传统机器学习分类识别算法不能很好根据所提取的浅层特征去学习更深更好的特征,导致传统机器学习分类识别算法在音频信号分类上有所限制。2)深度学习分类识别算法,例如:卷积神经网络、循环神经网络、全卷机神经网络等算法。其优点是:浅层学习特征,深层学习提取高维特征,学习模拟能力强,性能随着数据的增加很好的增强,适用于规模大的数据,更适用于目前音频信号的特征工程提取的特征。但目前都是把音频信号的特征工程提取的时频特征系数转换成图片来保存,然后用卷积神经网络来识别,这样会存在:精度丢失、系数比例不等变换等缺点。同时因为卷积神经网络参数是共享的,导致目前的卷积神经网络无法识别出时频特性中低频和高频具有的差异性。有鉴于此,本专利技术提出基于听觉特性的音乐适用场景自动分类方法,在音频信号特征提取工程中采用基于小波变换的听觉特性滤波器代替短时傅里叶变换,得到多分辨率的听觉特性倒谱系数,得到更符合人耳蜗结构的听觉特性倒谱系数,从而改善现有的音频信号提取时频特征系数的方法。在根据特征进行分类识别过程中采用基于听觉特性的卷积神经网络的方法,可克服传统卷积神经网络忽略低频、高频分量差异性的缺点,可克服传统机器学习方法学习能力不够强的缺点。相比于目前的音乐自动分类方法,本专利技术具有更符合听觉特性、准确率高、性能稳定、鲁棒性强等优点,可作为音乐自动分类一种有效的补充方法,广泛应用于音乐自动分类、音频信号自动分类等领域中。
技术实现思路
本专利技术的目的在于克服现有的音频信号特征提取工程和根据特征进行分类识别过程的不足,提出基于听觉特性的音乐适用场景自动分类方法。具体原理及方法如下:人耳是人类的听觉器官,人耳由外耳、中耳、内耳3部分组成。外耳由耳翼、外耳道和鼓膜构成:耳翼的作用是保护耳孔,其卷曲状具有定向作用;外耳道是一条均匀的耳管,把声音传送到鼓膜;鼓膜位于耳道内端,声音的振动通过鼓膜传到内耳。中耳为充气腔体,由鼓膜将其与外耳隔离,中耳的作用有两个:一是通过听小骨进行声阻抗变换,放大声音;二是保护内耳。内耳深埋在头骨中,由半规管、前庭窗和耳蜗组成,其中耳蜗有一个重要部分称为基底膜,高频声波只能推动耳蜗底部小范围内基底膜的振动;中频声波能使基底膜振动从底部向前延伸,到中段振幅最大,然后逐渐消失;低频声波则将基底膜的振动推进到蜗顶,以顶部振幅最大。在每个声音频率上,随着强度的增加,基底膜运动的幅度加大,并带动更宽的部分振动。不同的声音频率沿着基底膜的分布是对数型的。声音的感受细胞在内耳的耳蜗部分,因此,外来的声波必须传到内耳才能引起听觉。外界的声波振动鼓膜,经过中耳的听小骨传到卵形窗,进而引起耳蜗的外淋巴和内淋巴的振动,这样的刺激使耳蜗中的听觉感受器的毛细胞兴奋,并将这种声音的刺激转换为神经冲动,由听神经传到大脑皮层的听觉中枢,形成听觉。本专利技术的目的在于克服现有的音频信号特征提取工程和根据特征进行分类识别过程的缺点,提出基于听觉特性的音乐适用场景自动分类方法,具体方法如下:首先,将音乐进行切片操作,把音乐切成等长时间音乐(例如:10秒或者其它时间),得到等长时间音乐,以便后面的操作。然后,对上述等长时间音乐进行特征提取工程。①利用基于小波变换的听觉特性滤波器进行滤波处理,提取特征得到滤波系数;②接着再把滤波系数经过动态可变长度窗处理得到窗口系数;③然后把窗口系数再经过非线性响应变换,换成感知响度系数便能得到听觉特性倒谱系数。最后,对上述听觉特性倒谱本文档来自技高网
...

【技术保护点】
1.基于听觉特性的音乐适用场合自动分类方法,其特征在于包括如下步骤:首先,将音乐进行切片操作,把音乐切成等长时间音乐,得到等长时间音乐;然后,利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理,提取特征得到滤波系数;接着,再把滤波系数经过动态可变长度窗处理得到窗口系数;然后把窗口系数再经过非线性响应变换,换成感知响度系数便能得到听觉特性倒谱系数;最后,对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。

【技术特征摘要】
1.基于听觉特性的音乐适用场合自动分类方法,其特征在于包括如下步骤:首先,将音乐进行切片操作,把音乐切成等长时间音乐,得到等长时间音乐;然后,利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理,提取特征得到滤波系数;接着,再把滤波系数经过动态可变长度窗处理得到窗口系数;然后把窗口系数再经过非线性响应变换,换成感知响度系数便能得到听觉特性倒谱系数;最后,对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。2.根据权利要求1所述的基于听觉特性的音乐适用场合自动分类方法,其特征在于:听觉特性倒谱系数的提取过程把听觉特性滤波器、动态可变长度窗、非线性响度变换结合在一起,模拟了音频信号在人耳传播的过程。3.根据权利要求1所述的基于听觉特性的音乐适用场合自动分类方法,其特征在于:基于听觉特性的卷积神经网络的卷积核不再全局共享,而在符合人耳听觉特性的各个频域区域内共享卷积核,从而完成时频特性中各个频域分量差异性的识别;各个频域区域内的卷积核只负责学习该频域区域的特征,因此能学习到更多细节特征,使分类更准确,由此克服卷积神经网络无法识别出时频特性中各个频域具有的差异性的缺陷。4.根据权利要求1所述的基于听觉特性的音乐适用场景自动分类方法,其特征在于通过音频信号特征提取模块和分类识别模块实现;所述的音频信号特征提取模块用于提取音频信号的听觉特性倒谱系数,主要采用基于小波变换的听觉特性滤波器方法,具体包括:首先对输入的音频进行切割,得到等长的音频信号;然后利用基于小波变换的听觉特性滤波器对等长的音频信号进行特征提取,得到滤波系数;接着动态可变长度窗处理对滤波系数进行处理,得到窗口系数;然后把窗口系数再经过非线性响应变换,变换成感知响度系数便能得到听觉特性倒谱系数。5.根据权利要求4所述的基于听觉特性的音乐适用场景自动分类方法,其特征在于所...

【专利技术属性】
技术研发人员:韦岗李增马碧云梁舒
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1