System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度学习技术的大规模鸟声识别方法技术_技高网
当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于深度学习技术的大规模鸟声识别方法技术

技术编号:44291272 阅读:13 留言:0更新日期:2025-02-14 22:25
本申请涉及人工智能与鸟类生态学交叉领域,其具体地公开了一种基于深度学习技术的大规模鸟声识别方法,该方法通过项目区域录音设备采集鸟声音频,利用Bird audio detection challenge 2018数据集训练鸟声事件检测模型,并用野外录音数据进行类别预测,分离出有效鸟声和背景噪声;同时结合中国观鸟记录中心的鸟种目录和Xeno‑Canto的音频文件,构建鸟声识别数据集,使用背景噪声和鸟声识别数据集训练鸟声识别模型,并进行验证;最终,将有效鸟声数据输入模型进行标签预测,以识别鸟声。本发明专利技术旨在通过深度学习技术,对在建项目区域开展广泛的鸟类声音识别,从而节省数据处理成本,提高复杂场景下的识别准确率。

【技术实现步骤摘要】

本申请涉及人工智能与鸟类生态学交叉领域,且更为具体地,涉及一种基于深度学习技术的大规模鸟声识别方法


技术介绍

1、在鸟类生态学和环境监测领域,专家们一直在探索如何更有效地监测和研究鸟类。主动鸣声监测是一种传统方法,通过人工录音来捕捉鸟类鸣声,但这种方法成本高且可能影响鸟类自然行为。随着技术进步,被动声监测技术开始流行,它通过安装传感器自动记录声音,减少了人为偏差,但需要大量人工后期进行分析鉴定。

2、有不少研究者将人工智能(ai)引入被动监测,尤其是深度学习算法,为这一领域带来了革命性的变化。ai可以处理大量数据,提高监测效率,减少人力需求。例如,基于densenet121网络结构的ai模型在鸟声识别上取得了96.9%的高准确率。

3、然而,目前大部分算法主要只能针对既定数据集中的有限的鸟声音频进行识别,但在包括多类别鸟种的带噪自然环境下的综合识别能力并不理想,除了算法本身的鲁棒性尚欠缺,更是因为缺乏足够多样和可靠的鸟声录音资料来训练ai模型。

4、此外,目前的ai研究大多集中在识别鸟类类别上,而对于鸟类发声行为与生态环境关系的研究较少。在实际应用中,ai在复杂声学场景下的识别能力不足,限制了其在长期、大范围生物多样性研究中的应用。

5、因此,提供一种基于深度学习技术的大规模鸟声识别方法。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请提供了一种基于深度学习技术的大规模鸟声识别方法,该方法旨在通过深度学习技术,对在建项目区域开展广泛的鸟类声音监测。它基于频谱分割技术和ecapa-tdnn模型,构建了一套完整的基于深度学习技术的创新性鸟声识别框架。

2、具体地,根据本申请的一个方面,提供了一种基于深度学习技术的大规模鸟声识别方法,其包括:

3、s1、使用项目区域录音设备采集项目区域附近的鸟声音频以得到野外录音数据;

4、s2、将从鸟声事件检测的竞赛bird audio detection challenge 2018-dcasetask 3中获取的三个数据集作为鸟声事件检测数据集,用于训练鸟声事件检测模型;

5、s3、将所述野外录音数据输入到训练后的鸟声事件检测模型中进行类别预测,以得到有效鸟声数据和背景噪声数据;

6、s4、从中国观鸟记录中心获取项目地区记录到的鸟种目录,同时在xeno-canto中下载对应鸟种的音频文件,并对所述音频文件进行数据预处理操作以得到鸟声识别数据集;

7、s5、使用所述背景噪声数据和所述鸟声识别数据集来训练鸟声识别模型;

8、s6、对训练后的鸟声识别模型进行验证;

9、s7、将所述有效鸟声数据输入到所述鸟声识别模型中进行标签预测,以得到识别结果;

10、其中,在所述鸟声事件检测模型和所述鸟声识别模型的构建过程中,将所述鸟声事件检测数据集中的频谱图和所述鸟声识别数据集中的频谱图分别作为输入,并选择ecapa-tdnn模型作为模型基础架构,具体的模型构建过程为:

11、对鸟声事件检测数据集中的频谱图和鸟声识别数据集中的频谱图分别进行频带分割预处理,生成具有不同频带特征的子带z;

12、对分割后的频带特征进行l2归一化处理,并连接全连接层以增加特征之间的复杂关联性;

13、采用基于稀疏矩阵的加速策略,使用coo(coordinate format)存储格式,对稀疏矩阵中的非零元素进行矩阵乘法运算,以提高计算效率和资源利用率;

14、使用ecapa-tdnn模型捕捉频谱图的语音特征,其中ecapa-tdnn模型结合了膨胀卷积、res2net结构和senet模块;

15、在ecapa-tdnn模型的输出后接上全连接层,将特征空间映射到类别空间;

16、其中,鸟声事件检测模型的全连接层输出2个节点,其输出的数值经过softmax函数后分别表示鸟声样本和噪声样本的概率,其输出的数值经过softmax函数后鸟声识别模型的全连接层输出179个节点,分别表示179种鸟类的概率。

17、可选地,所述s4,包括:s41、人工检查所述音频文件的频谱图和波形图,过滤掉低质量、错误标签的音频;s42、对长音频每30s切割一次,若最后一段音频不足30s,大于15s时则保留,低于15s则舍弃;s43、删除长度小于2s的原始音频片段。

18、可选地,所述s5,包括:s51,将所述鸟声识别数据集中声学信号的采样率统一为32,000khz,音频格式统一转换为无高频损耗的wav格式,以得到预处理后的音频数据;s52,将预处理后的音频数据进行随机切片,切片长度统一为10s;s53,对切片后的音频数据的幅度进行归一化处理;s54,将所述背景噪声数据以50%的概率混入到归一化处理后的音频数据中,以得到音频样本数据;s55,将音频样本数据的对数梅尔谱图进行频谱增强,其中包括在时域上随机掩码0至5帧,在频域上随机掩码0至10通道;s56,使用语速扰动、音量增强和加入高斯噪声等技术来训练模型。

19、特别地,在所述s56过程中,采用逐步融合策略将基于角度间隔的损失函数融入交叉熵损失函数,具体过程为:在训练初期依赖交叉熵损失函数lce来进行优化,此时β(t)≈0,其公式为:

20、

21、随着模型逐步收敛,β(t)开始逐渐增大,逐步引入基于角度间隔的损失函数laam中的角度间隔,其公式为:

22、lfuse(t)=lce+β(t)·laam;

23、在训练的后期,β(t)增长到接近1的较高值,此时基于角度间隔的损失函数laam占据主导地位,交叉熵损失的影响逐渐减小,其公式为:

24、

25、其中,n是样本数,c是类别数,xi是第i个输入样本的特征,wj是分类层的权重,yi是正确类别,m是增加的角度间隔,s是一个可调节的尺度因子,代表第i个样本与它的正确类别权重之间的角度,t是训练步长,β(t)为随训练步长t逐渐变化的权重系数。

26、特别地,在所述s56过程中,采用自适应学习率调整策略提升模型的训练效率和泛化能力,具体操作为:在模型训练的早期阶段,通过warmup策略逐渐增加学习率,使用adam优化器加速模型的收敛;设置batch size为64;在模型训练过程中,系统根据损失函数的变化情况,动态调整训练epoch的数量;在训练的后期,采用余弦退火的方式逐渐降低学习率,以进行精细调优。

27、可选地,所述s6,为了比较与评估本方法中各个模型性能,使用以下评估指标:

28、

29、其中,tp表示真阳性样本、tn表示真阴性样本、fp表示假阳性样本、fn表示假阴性样本。

30、可选地,所述s7,使用两种策略来判定正确识别结果,分别为:第一种策略,取鸟声识别模型输出概率0.7作为判断正确的阈值,即输出概率大于或等于0.7的音频样本作为模型正本文档来自技高网...

【技术保护点】

1.一种基于深度学习技术的大规模鸟声识别方法,其特征在于,包括:

2.根据权利要求1所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述S4,包括:

3.根据权利要求2所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述S5,包括:

4.根据权利要求3所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,在所述S56过程中,采用逐步融合策略将基于角度间隔的损失函数融入交叉熵损失函数,具体过程为:

5.根据权利要求4所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,在所述S56过程中,采用自适应学习率调整策略提升模型的训练效率和泛化能力,具体操作为:

6.根据权利要求5所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述S6,为了比较与评估本方法中各个模型性能,使用以下评估指标:

7.根据权利要求6所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述S7,使用两种策略来判定正确识别结果,分别为:

8.根据权利要求7所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述第二种策略,包括:

9.一种基于深度学习技术的大规模鸟声识别系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于深度学习技术的大规模鸟声识别方法,其特征在于,包括:

2.根据权利要求1所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述s4,包括:

3.根据权利要求2所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,所述s5,包括:

4.根据权利要求3所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,在所述s56过程中,采用逐步融合策略将基于角度间隔的损失函数融入交叉熵损失函数,具体过程为:

5.根据权利要求4所述的基于深度学习技术的大规模鸟声识别方法,其特征在于,在所述s56...

【专利技术属性】
技术研发人员:王杰胡涛李金晖袁旻忞
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1