一种基于频率动态卷积模型的鸟类声音识别方法和系统技术方案

技术编号:38334040 阅读:12 留言:0更新日期:2023-08-02 09:14
本发明专利技术公开了一种基于频率动态卷积模型的鸟类声音识别方法和系统,通过统计森林鸟类种群数量的变化,对区域进行生态评估。包括以下步骤:集各类鸟类声音信号,进行降噪处理;提取声音特征生成Log

【技术实现步骤摘要】
一种基于频率动态卷积模型的鸟类声音识别方法和系统


[0001]本专利技术涉及森林保护和声音识别领域,特别是涉及一种基于频率动态卷积模型的鸟类声音识别方法和系统。

技术介绍

[0002]鸟类的种群数量变化是衡量森林生态环境的一个重要指标。许多研究人员将鸟类作为研究森林生态环境和动物保护的观察对象。人们可以通过统计鸟类种群的变化,对该森林环境的生态质量进行整体评估。
[0003]鸟类声音识别是一个重要的生物学研究领域,通过鸟类声音识别可以达到识别鸟类种群数量变化的目的。在机器学习时代,研究者主要采用传统的模式识别算法,如支持向量机(SVM)、决策树(Decision Tree)和随机森林(Random Forest)等方法,提取声学特征,然后将其输入到分类器中进行识别。这些方法在鸟类声音识别任务中取得了一定的成功,但也存在一些问题,如特征提取需要手工设计,效果受到特征质量的影响等。研究人员在鸟类声音特征处理和模型构建方面做了许多的工作,首先将鸟鸣进行音素分割,然后将音素通过信号处理方法转换为特征向量序列,再将特征向量序列与鸟鸣声模板进行匹配,最后计算各语音模板的概率,来实现声音识别,但是该过程计算量大、过程复杂、准确率较低。
[0004]随着深度学习的发展,越来越多的研究者开始应用深度学习方法来解决鸟类声音识别问题。深度学习方法不需要手工设计特征,可以直接从原始声音数据中学习特征,因此具有更好的泛化能力和鲁棒性。目前,主要的深度学习方法包括卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)等。研究者可以采用端到端的方法,将原始声音数据作为输入,经过多层神经网络处理后,输出分类结果。同时,一些研究者也在深度学习模型中加入了注意力机制(Attention Mechanism)等技术,提高了模型的性能。在众多研究中,有学者使用卷积神经网络(CNN)的深度学习方法实现更高的识别准确率;有学者通过组合不同特征提取方法建立鲁棒性较强的模型;有学者应用变换将鸟的声音转换成声谱图,然后使用CNN对鸟类声音进行识别;也有学者提出了预处理谱图参数改进生物声学分类的方法,以提高CNN的分类精度。这些研究展示了深度学习、特征工程等不同技术在鸟类声音识别领域的应用和探索,并为这一领域的研究提供了新的思路和方法。
[0005]但是上述研究的模型采用的训练集特征较少,导致模型泛化能力较差。并且一些模型参数量大、计算复杂度高,需要性能较高的计算机,无法将训练模型植入嵌入式设备中,因而无法将训练模型应用于森林中实现森林环境下全天候的鸟类监测。而一些模型虽然能满足低功耗、低计算量的要求,但这些模型并不是专门为鸟类声音识别设计的,所以识别准确率较低。

技术实现思路

[0006]本专利技术为克服上述现有技术所述的鸟类声音识别模型泛化能力差、模型参数量
大、计算复杂度高、计算机性能要求过高等问题,本专利技术提供一种基于频率动态卷积模型的鸟类声音识别方法与一种基于频率动态卷积模型的鸟类声音识别系统。
[0007]本专利技术的技术方案具体如下:
[0008]一种基于频率动态卷积模型的鸟类声音识别方法,具体应包括以下几个步骤:
[0009]S1:在森林环境内收集各类鸟类的声音信号,并对这些信号进行降噪处理;
[0010]S2:将S1处理后的原始声音信号转换为Log

mel特征谱图供深度学习模型训练;
[0011]S3:应用频率动态卷积处理Log

Mel特征谱图;
[0012]S4:采用多尺度特征融合模块将特征谱图不同层次的特征信息结合起来;
[0013]S5:采用CA注意力机制将特征谱图的位置信息加入到通道注意力;
[0014]S6:对S2

S5进行迭代训练,训练轮数为300轮,学习率初始值为0.001,模型优化器为随机梯度下降,损失函数使用交叉熵损失函数,学习率下降策略使用余弦退火,生成频率动态卷积轻量化模型;
[0015]S7:将模型部署在嵌入式AI设备中,实现鸟类声音监测、识别。
[0016]进一步改进在于,上述S2

S6步骤为该模型的训练过程,S7步骤为面向森林环境的鸟类声音识别系统具体工作方式。
[0017]进一步改进在于,上述S3步骤中,应用频率动态卷积处理Log

Mel声音特征谱图这一操作可充分利用声音信号的频率动态信息,并且其具体包括以下几个步骤:
[0018]S3.1:对频谱图的时域进行平均池化;
[0019]S3.2:对频谱图时域相邻的频率分量进行一维卷积处理;
[0020]S3.3:对上述S3.2处理结果使用批量归一化和激活函数ReLU进行处理;
[0021]S3.4:使用一维卷积对输入通道进行压缩;
[0022]S3.5使用Softmax函数调整本模型的自注意力权重;
[0023]S3.6:将Softmax的温度系数调整为30。
[0024]进一步改进在于,步骤S3.6中,将Softmax温度系数调整为30,这一操作可以确保基本核的均匀学习和稳定训练。
[0025]进一步改进在于,上述S4步骤和S5步骤,采用多尺度特征融合模块来充分提取频谱图原始数据的特征,并同时引入CA注意力机制将图片位置信息加入到通道注意力,具体包括以下几个步骤:采用一个多尺度特征融合模块,该模块具有三个分支来充分提取频谱图原始数据的特征,第一个分支采用1
×
1的二维卷积,第二个分支采用3
×
3的二维卷积,第三个分支采用两个3
×
3的二维卷积;第二个分支和第三个分支分别提取声谱图的细微特征和整体特征并同时引入CA注意力机制。
[0026]进一步改进在于,为了提取更多的声谱图特征信息,本专利技术提出的特征融合模块有三个平行分支,其中两个分支在特征提取之后,引入CA注意力机制,充分捕捉有效的特征信息。3
×
3卷积用于提取原始声音数据的细微特征,5
×
5卷积用于提取原声音数据的整体特征。但5
×
5卷积计算量较大,所以用两个3
×
3卷积来代替。
[0027]进一步改进在于,上述细微特征分支和整体特征分支分别同时引入CA注意力机制此步骤具体包括:将信道关注分解为两个一维特征编码过程,分别沿两个空间方向聚合特征,分别获得在宽度和高度两个方向的特征图,其公式为(1)、(2)。
[0028][0029][0030]进一步改进在于,本专利技术还提出了一种基于频率动态卷积模型的鸟类声音识别系统,该系统包括麦克风、声卡、NVIDIA Jetson TX2模组、通信模块、后台服务器,其中麦克风、声卡、NVIDIA Jetson TX2模组、通信模块集成在嵌入式AI设备中,将嵌入式AI设备安装于森林中用于鸟类声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于频率动态卷积模型的鸟类声音识别方法,其特征在于:应包括以下几个步骤:S1:在森林环境内收集各类鸟类的声音信号,并对这些信号进行降噪处理;S2:将S1处理后的原始声音信号转换为Log

mel特征谱图供深度学习模型训练;S3:应用频率动态卷积处理Log

Mel特征谱图;S4:采用多尺度特征融合模块将特征谱图不同层次的特征信息结合起来;S5:采用Coordinate attention注意力机制将特征谱图的位置信息加入到通道注意力;S6:对S2

S5进行迭代训练,训练轮数为300轮,学习率初始值为0.001,模型优化器为随机梯度下降,损失函数使用交叉熵损失函数,学习率下降策略使用余弦退火,生成频率动态卷积轻量化模型;S7:将模型部署在嵌入式AI设备中,实现鸟类声音监测、识别。2.根据权利要求1所述的一种基于频率动态卷积模型的鸟类声音识别方法,其特征在于:步骤S3应用频率动态卷积处理Log

Mel特征谱图,具体包括以下几个步骤:S3.1:对频谱图的时域进行平均池化;S3.2:对频谱图时域相邻的频率分量进行一维卷积处理;S3.3:对上述S3.2处理结果使用批量归一化和激活函数ReLU进行处理;S3.4:使用一维卷积对输入通道进行压缩;S3.5:使用Softmax函数调整本模型的自注意力权重;S3.6:将Softmax的温度系数调整为30。3.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:江莺陈越豪孙佑鹏
申请(专利权)人:南京林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1