本发明专利技术公开了一种基于频谱图极大极小峰谷轨迹的音频分类方法与系统,首先对音频进行切片,计算每个音频切片的频谱图;然后基于频谱图的振幅轴,计算振幅的极大值点的位置和振幅大小并排序,分别构造极大位置矩阵和极大振幅矩阵,连接后构造极大峰值特征矩阵;并计算振幅的极小值点的位置和振幅大小并排序,分别构造极小位置矩阵和极小振幅矩阵,连接后构造极小谷值特征矩阵,进而得到极大极小峰谷特征矩阵;最后将极大极小峰谷特征矩阵输入卷积神经网络,输出音频数据的分类结果。本发明专利技术对频谱图峰值轨迹和频谱图谷值轨迹之间的相互关系上进行了更为充分的探索;在输入模型之前对频谱图的轨迹特征进行了特征的聚合,可以提高分类的准确性。分类的准确性。分类的准确性。
【技术实现步骤摘要】
基于频谱图极大极小峰谷轨迹的音频分类方法与系统
[0001]本专利技术属于音频识别领域,涉及一种基于频谱图极大极小峰谷轨迹的音频分类方法与系统。
技术介绍
[0002]现如今的音频分类方法按使用的特征的类别可以分为:基于波形图的音频分类算法,基于频谱图的音频分类算法等。基于波形图音频分类算法直接采用音频的波形图作为输入特征,使用神经网络作为特征提取器,波形作为维度较高的特征,为波形图进行设计的较深的神经网络会出现训练时间较长、易过拟合等缺点。基于频谱图的音频分类算法使用音频数据的中级特征表示——频谱图作为输入特征,可以有效利用频谱图的时间域和频率域的信息,提高音频分类的准确性。频谱图分类算法的核心难点在于如何处理频谱图中的信息,聚合或舍去,构造频谱图特征。
[0003]基于频谱图的音频分类算法的特征提取策略一种是采用深度学习中的神经网络模型作为特征提取器自动提取特征;另一种是基于领域知识对频谱图进行手工特征的提取。在对频谱图进行手工特征提取时,容易造成音频特征的部分丢失,导致分类准确率的下降;另外,以往的基于频谱图的音频分类算法直接使用深度学习模型来提取特征,没有考虑在输入模型之前先对频谱图的峰谷轨迹特征进行聚合,因此缺乏对频谱图中轨迹信息相互联系的探索。
技术实现思路
[0004]专利技术目的:针对现有技术的不足,本专利技术的目的在于提供一种基于频谱图极大极小峰谷轨迹的音频分类方法与系统,利用峰谷轨迹来描述音频频谱图的特征关系,输入神经网络模型之前对频谱图进行峰谷轨迹特征的聚合,以提高分类的准确性。
[0005]技术方案:为实现上述专利技术目的,本专利技术采用如下技术方案:
[0006]基于频谱图极大极小峰谷轨迹的音频分类方法,包括如下步骤:
[0007](1)对每个音频构造频谱图特征:对音频数据进行切片,得到多个音频数据切片,并计算每个音频数据切片的频谱图;
[0008](2)基于音频的频谱图来分别计算极大峰值特征矩阵和极小谷值特征矩阵,构造最终的极大极小峰谷特征矩阵;包括:
[0009]基于频谱图的振幅轴,计算振幅的极大值点的位置和振幅大小并排序,分别构造极大位置矩阵和极大振幅矩阵,连接后构造极大峰值特征矩阵;
[0010]基于频谱图的振幅轴,计算振幅的极小值点的位置和振幅大小并排序,分别构造极小位置矩阵和极小振幅矩阵,连接后构造极小谷值特征矩阵;
[0011]连接极大峰值特征矩阵和极小谷值特征矩阵,得到极大极小峰谷特征矩阵;
[0012](3)将最终的极大极小峰谷特征矩阵输入卷积神经网络,输出音频数据的分类结果。
[0013]作为优选,所述步骤(1)中,对于一个音频数据x,第l个切片x
l
的离散傅叶变换DFT表示为:
[0014][0015]其中,X
l
[k]为第k个频率的DFT系数,k=0
…
2N
f
‑
1,x
l
[m]为x
l
第m个时间点的振幅值,m=0
…
2N
f
‑
1,2N
f
为切片大小,j为复数的虚部,l=0
…
L
‑
1,L为每个音频数据的切片数量。
[0016]作为优选,所述步骤(2)中,极大极小峰谷特征矩阵其中为极大位置矩阵,为极小位置矩阵,为极大振幅矩阵,为极小振幅矩阵,p为预设选取极值的数量。
[0017]作为优选,的第l列其中,H
l
为第l个切片频谱图中所有谱峰的频率位置的集合,fH
l
为从H
l
中按照峰值振幅降序排序后选取的前p个频率位置构成的向量;的第r行第l列其中其中
[0018]作为优选,的第l列其中,S
l
为第l个切片频谱图中所有谱谷的频率位置的集合,fS
l
为从S
l
中按照谷值振幅升序排序后选取的前p个频率位置构成的向量;的第r行第l列其中其中
[0019]作为优选,所述步骤(3)中,采用的卷积神经网络模型使用三个卷积块,每个卷积块包含了一个卷积层和池化层,三个卷积块之后是多层感知机,来对特征进行进一步的聚合;使用softmax函数作为分类器。
[0020]基于相同的专利技术构思,本专利技术提供一种基于频谱图极大极小峰谷轨迹的音频分类系统,包括:
[0021]频谱图特征构造模块,用于对每个音频构造频谱图特征:对音频数据进行切片,得到多个音频数据切片,并计算每个音频数据切片的频谱图;
[0022]极大极小峰谷特征矩阵构造模块,用于基于音频的频谱图来分别计算极大峰值特征矩阵和极小谷值特征矩阵,构造最终的极大极小峰谷特征矩阵;包括:基于频谱图的振幅轴,计算振幅的极大值点的位置和振幅大小并排序,分别构造极大位置矩阵和极大振幅矩阵,连接后构造极大峰值特征矩阵;基于频谱图的振幅轴,计算振幅的极小值点的位置和振幅大小并排序,分别构造极小位置矩阵和极小振幅矩阵,连接后构造极小谷值特征矩阵;连接极大峰值特征矩阵和极小谷值特征矩阵,得到极大极小峰谷特征矩阵;
[0023]以及分类模块,用于将最终的极大极小峰谷特征矩阵输入卷积神经网络,输出音频数据的分类结果。
[0024]基于相同的专利技术构思,本专利技术提供一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于频谱图极大极小峰谷轨迹的音频分类方法的步骤。
[0025]基于相同的专利技术构思,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于频谱图极大极小峰谷轨迹的音频分类方法的步骤。
[0026]有益效果:本专利技术首先对音频数据进行切片,计算出每个切片的频谱图特征;在音频的频谱图极大峰值轨迹的基础上,引入了频谱图极小谷值轨迹,构造了极大极小峰谷特征矩阵,同时关注极大峰值信息和极小谷值信息,从而更好地利用频谱图中的轨迹信息。通过对数据的实验表明该方法具有优越的性能,具体表现为:
[0027]1)本专利技术方法是针对音频的切片进行的,并在提取完各个切片的特征后进行融合,关注了音频频谱图的特征细节。
[0028]2)本专利技术基于音频的频谱图特征,频谱图拥有显示的时间域和频率域,在频率轴上拥有更多的信息,从中提取的极大极小峰谷特征矩阵可以更好地表达音频数据特征之间的联系。
[0029]3)通过将极大极小峰谷特征矩阵输入神经网络,继续进行特征的聚合。此过程更好地利用了频谱图信息之间的关系,因此有利于提高分类的准确性。
[0030]本专利技术的优点在于它利用了峰谷轨迹来描述了音频频谱图的特征关系,同时计算了位置矩阵和振幅矩阵,构造了极大峰值矩阵和极小谷值矩阵,最后通过连接得到了最终的极大极小峰谷特征矩阵,因此对频谱图峰值轨迹和频谱图谷值轨迹之间的相互关系上进行了更为充分本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于频谱图极大极小峰谷轨迹的音频分类方法,其特征在于,包括如下步骤:(1)对每个音频构造频谱图特征:对音频数据进行切片,得到多个音频数据切片,并计算每个音频数据切片的频谱图;(2)基于音频的频谱图来分别计算极大峰值特征矩阵和极小谷值特征矩阵,构造最终的极大极小峰谷特征矩阵;包括:基于频谱图的振幅轴,计算振幅的极大值点的位置和振幅大小并排序,分别构造极大位置矩阵和极大振幅矩阵,连接后构造极大峰值特征矩阵;基于频谱图的振幅轴,计算振幅的极小值点的位置和振幅大小并排序,分别构造极小位置矩阵和极小振幅矩阵,连接后构造极小谷值特征矩阵;连接极大峰值特征矩阵和极小谷值特征矩阵,得到极大极小峰谷特征矩阵;(3)将最终的极大极小峰谷特征矩阵输入卷积神经网络,输出音频数据的分类结果。2.根据权利要求1所述的基于频谱图极大极小峰谷轨迹的音频分类方法,其特征在于,所述步骤(1)中,对于一个音频数据x,第l个切片x
l
的离散傅叶变换DFT表示为:其中,X
l
[k]为x
l
第k个频率的DFT系数,k=0
…
2N
f
‑
1,x
l
[m]为x
l
第m个时间点的振幅值,m=0
…
2N
f
‑
1,2N
f
为切片大小,j为复数的虚部,l=0
…
L
‑
1,L为每个音频数据的切片数量。3.根据权利要求1所述的基于频谱图极大极小峰谷轨迹的音频分类方法,其特征在于,所述步骤(2)中,极大极小峰谷特征矩阵其中为极大位置矩阵,为极小位置矩阵,为极大振幅矩阵,为极小振幅矩阵,p为预设选取极值的数量,L为每个音频数据的切片数量。4.根据权利要求3所述的基于频谱图极大极小峰谷轨迹的音频分类方法,其特征在于,的第l列其中,H
l
为第l个切片频谱图中所有谱峰的频率位置的集合,fH
l
为从H
l
中按照峰值振幅降序排序后选取的前p个频率位置构成的向量;的第r行第l列其中r=0,
…
(p
‑
1),X
l
[h]为第l个切片的第h个频率的DFT系数。5.根据权利要求3所述的基于...
【专利技术属性】
技术研发人员:何萍,朱磊,徐晓华,李泽正,
申请(专利权)人:扬州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。