一种鸟鸣声分类识别方法及装置制造方法及图纸

技术编号:36805653 阅读:17 留言:0更新日期:2023-03-09 00:13
本发明专利技术公开了一种鸟鸣声分类识别方法及装置,包括:获取鸟鸣声音频数据;对鸟鸣声音频数据进行预处理,得到预处理后的音频数据;对预处理后的音频数据进行傅里叶变换,得到鸟鸣声的语谱图;基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量;利用CNN网络处理语谱图,训练后得到局部细粒度频谱特征;利用Transformer编码器网络处理MFCC混合特征向量,训练后得到兼顾上下文的全局序列特征;将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。本发明专利技术能够提高鸟声分类识别准确率。准确率。准确率。

【技术实现步骤摘要】
一种鸟鸣声分类识别方法及装置


[0001]本专利技术涉及一种鸟鸣声分类识别方法及装置,属于鸟声识别


技术介绍

[0002]鸟类作为生态系统中的重要组成部分,分布广泛且对环境变化敏感,多数学者将鸟类作为监测环境变化的指示物种,为此对鸟类物种的监测、识别及分类具有重要意义。传统的鸟类监测主要通过分析鸟类形态差异来判断不同鸟类的分布,而在实际监测中,由于鸟类形态监测存在成本高、范围限制大、效率低等问题,使得目前鸟鸣声监测成为识别鸟类物种的主流监测方向。
[0003]鸟声识别的主要过程包括预处理、特征提取以及分类方法三个方面。之前国内外学者围绕基于鸟鸣声的鸟类识别问题,通过手工提取特征、机器学习等方法展开了大量的研究,但对识别效果的提升一直比较有限。主要原因在于现有的方法大多对特征的提取利用较为单一,识别效果容易受到外界自然噪声的干扰。为解决此问题,提出了一种基于卷积神经网络和Transformer组合模型的鸟声识别方法。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提出了一种基于卷积神经网络和Transformer组合模型的鸟鸣声分类识别方法及装置,基于短时傅里叶变换和梅尔频率倒谱系数进行特征提取,多特征融合增加特征的差异性,基于卷积神经网络和Transformer组合模型进行特征处理,降低环境噪声的干扰,提高鸟鸣声分类识别准确度。
[0005]为解决上述技术问题,本专利技术采用了如下技术手段:
[0006]第一方面,本专利技术提出了一种鸟鸣声分类识别方法,包括如下步骤:
[0007]获取鸟鸣声音频数据;
[0008]对鸟鸣声音频数据进行预处理,得到预处理后的音频数据;
[0009]对预处理后的音频数据进行傅里叶变换,得到鸟鸣声的语谱图;
[0010]基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量;
[0011]利用CNN网络处理语谱图,训练后得到局部细粒度频谱特征;
[0012]利用Transformer编码器网络处理MFCC混合特征向量,训练后得到兼顾上下文的全局序列特征;
[0013]将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。
[0014]结合第一方面,进一步的,对鸟鸣声音频数据进行预处理包括:预加重、分帧加窗。
[0015]结合第一方面,进一步的,基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量的方法为:
[0016]对预处理后的音频数据进行快速傅里叶变换获得功率能量谱;
[0017]将功率能量谱输入到梅尔滤波器组中,得到梅尔能量值;
[0018]对梅尔能量值取对数并进行离散余弦变换后得到梅尔频率倒谱系数静态分量;
[0019]对梅尔频率倒谱系数静态分量进行差分计算,得到一阶差分向量和二阶差分向量;
[0020]将梅尔频率倒谱系数静态分量、一阶差分向量和二阶差分向量纵向拼接融合,得到MFCC混合特征向量。
[0021]结合第一方面,进一步的,所述CNN网络的主干为ResNet50网络,网络结构包括第一层卷积层、四组残差模块、全连接层,其中,卷积核大小均设定为3
×
3,池化层尺寸均设定为2
×2×
2。
[0022]结合第一方面,进一步的,Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。
[0023]第二方面,本专利技术提出了一种鸟鸣声分类识别装置,包括:
[0024]音频读取模块,用于获取鸟鸣声音频数据;
[0025]预处理模块,用于对鸟鸣声音频数据进行预处理,得到预处理后的音频数据;
[0026]STFT模块,用于对预处理后的音频数据进行傅里叶变换,得到鸟鸣声的语谱图;
[0027]MFCC模块,用于基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量;
[0028]网络模型训练模块,用于利用CNN网络处理语谱图,训练后得到局部细粒度频谱特征;利用Transformer编码器网络处理MFCC混合特征向量,训练后得到兼顾上下文的全局序列特征;
[0029]分类识别模块,用于将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。
[0030]结合第二方面,进一步的,MFCC模块的操作如下:
[0031]对预处理后的音频数据进行快速傅里叶变换获得功率能量谱;
[0032]将功率能量谱输入到梅尔滤波器组中,得到梅尔能量值;
[0033]对梅尔能量值取对数并进行离散余弦变换后得到梅尔频率倒谱系数静态分量;
[0034]对梅尔频率倒谱系数静态分量进行差分计算,得到一阶差分向量和二阶差分向量;
[0035]将梅尔频率倒谱系数静态分量、一阶差分向量和二阶差分向量纵向拼接融合,得到MFCC混合特征向量。
[0036]结合第二方面,进一步的,在网络模型训练模块中,所述CNN网络的主干为ResNet50网络,网络结构包括第一层卷积层、四组残差模块、全连接层,其中,卷积核大小均设定为3
×
3,池化层尺寸均设定为2
×2×
2;Transformer编码器网络包括输入层、多头注意力模块、多层感知机模块和输出层。
[0037]采用以上技术手段后可以获得以下优势:
[0038]本专利技术提出了一种鸟鸣声分类识别方法及装置,对待识别的鸟鸣声音频数据进多特征提取,一方面利用短时傅里叶变换(STFT)绘制成STFT能量三维语谱图作为第一种输入特征,另一方面将梅尔频率倒谱系数(MFCC)静态特征、一阶差分以及二阶差分融合组成MFCC混合特征向量作为第二种输入特征,加强了对时域特征上下文连续性的利用,并且降
低了鸟声音频中环境噪声的干扰。本专利技术使用多特征融合来代替现有技术中的单一特征,扩大相似鸟声之间的差异性,有利于提高对不同鸟声识别的区分度。本专利技术利用CNN和Transformer结合的网络模型进行特征提取,CNN网络可以提取STFT语谱图中的局部频域信息,Transformer网络可以提取MFCC混合特征向量中兼顾上下文特征的全局时域信息,对两者进行融合后分类,能够充分利用STFT语谱图特征以及MFCC混合特征的优势,进一步降低外界自然噪声的干扰,有效提高网络模型识别的准确率,进而有效提高鸟鸣声音频的分类识别准确率。
附图说明
[0039]图1为本专利技术一种鸟鸣声分类识别方法的步骤流程图;
[0040]图2为本专利技术实施例中Transformer编码器的结构框图;
[0041]图3为本专利技术实施例中CNN

Transformer网络模型在Birdsdata数据集和xeno

canto数据集中训练100个epochs之后的准确率变化曲线;...

【技术保护点】

【技术特征摘要】
1.一种鸟鸣声分类识别方法,其特征在于,包括如下步骤:获取鸟鸣声音频数据;对鸟鸣声音频数据进行预处理,得到预处理后的音频数据;对预处理后的音频数据进行傅里叶变换,得到鸟鸣声的语谱图;基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量;利用CNN网络处理语谱图,训练后得到局部细粒度频谱特征;利用Transformer编码器网络处理MFCC混合特征向量,训练后得到兼顾上下文的全局序列特征;将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。2.根据权利要求1所述的一种鸟鸣声分类识别方法,其特征在于,对鸟鸣声音频数据进行预处理包括:预加重、分帧加窗。3.根据权利要求1所述的一种鸟鸣声分类识别方法,其特征在于,基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量的方法为:对预处理后的音频数据进行快速傅里叶变换获得功率能量谱;将功率能量谱输入到梅尔滤波器组中,得到梅尔能量值;对梅尔能量值取对数并进行离散余弦变换后得到梅尔频率倒谱系数静态分量;对梅尔频率倒谱系数静态分量进行差分计算,得到一阶差分向量和二阶差分向量;将梅尔频率倒谱系数静态分量、一阶差分向量和二阶差分向量纵向拼接融合,得到MFCC混合特征向量。4.根据权利要求1所述的一种鸟鸣声分类识别方法,其特征在于,所述CNN网络的主干为ResNet50网络,网络结构包括第一层卷积层、四组残差模块、全连接层,其中,卷积核大小均设定为3
×
3,池化层尺寸均设定为2
×2×
2。5.根据权利要求1所述的一种鸟鸣声分类识别方法,其特征在于,Transformer编码器网络包括输入层、...

【专利技术属性】
技术研发人员:周晓彦王基豪李大鹏韩智超王丽丽
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1