一种基于JDC-CRNN的鸟声检测方法与系统技术方案

技术编号:37850819 阅读:12 留言:0更新日期:2023-06-14 22:40
本发明专利技术公开了一种基于JDC

【技术实现步骤摘要】
一种基于JDC

CRNN的鸟声检测方法与系统


[0001]本专利技术涉及鸟声检测的
,更具体地,涉及一种基于JDC

CRNN的鸟声检测方法与系统。

技术介绍

[0002]鸟类作为一种分布广泛的动物,在自然界中扮演着重要角色,是环境质量的绝佳自然指标。在户外观察鸟类时,观鸟者常常只闻其声不见其影,因此从鸟声中发掘信息有着重要意义。通过音频数据分析,可以让计算机实现鸟声的自动化处理,并通过音频检测是否存在鸟类。机器学习和卷积神经网络的出现使得自动检测鸟声成为可能,鸟声自动化检测在一定程度上帮助了学者监测鸟类群落数量的变化趋势和生物系统中的物种多样性。
[0003]鸟声检测任务中所使用的鸟声数据集通常是弱标注的,这是因为音频中有时混杂着其他冗余信息。鸟声音频检测的难点在于,音频中的干扰信号过多、过强时如何能够准确敏感地感知到相对微弱的鸟叫声;另外具有发展潜力的一点是在保证准确性的前提下缩小算法模型的计算复杂度,使得模型在轻量化设备上仍具有较好的响应能力,让研究人员在户外使用移动端设备时仍可以方便地检测鸟声,减少信号不佳带来的不便或带给云端的计算负载增加的情况。
[0004]现有的解决方案JDC

CNN(Joint Detection and Classification Convolution Neural Network)是Kong等人在2017年提出的。JDC

CNN首先定义基于VGG(Visual Geometry Group Network)的基线CNN模型用于对比,根据其全局池化层的不同分为全局最大池化CNN和全局平均池化CNN;在将前者作为分类器的基础上引进检测器后得到JDC

CNN。JDC

CNN以类VGG

CNN作为分类器,以单层CNN作为检测器。在JDC

CNN中,检测器决定一段音频需要进一步分析还是直接被跳过,分类器则在进一步分析音频后输出音频中存在鸟声的概率。与基线CNN模型对比,JDC

CNN分类性能有小幅提升;但其基于大型CNN网络实现,为了能够准确检测出音频中的声音事件,需要大量时间计算和训练、计算复杂度较高,不利于快速响应;尤其作为分类器的分类器网络计算速度较慢,影响模型的灵活性和响应能力。
[0005]现有技术公开了一种基于多特征融合和组合模型的鸟声识别方法,包括:对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,分别归一化后进行纵向拼接形成融合特征;绘制STFT语谱图;将融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果;该申请的识别模型基于大型CNN网络构建,虽然能够检测出音频中的鸟声,需要大量时间计算和训练、计算复杂度较高,不利于快速响应,无法兼顾检测精度和检测速度。

技术实现思路

[0006]本专利技术为克服上述现有技术对鸟声检测时无法兼顾检测精度和检测速度的缺陷,提供一种基于JDC

CRNN的鸟声检测方法与系统,能够实现对鸟声的精准检测,同时降低了计算时间复杂度,提高了检测速度。
[0007]为解决上述技术问题,本专利技术的技术方案如下:
[0008]本专利技术提供了一种基于JDC

CRNN的鸟声检测方法,包括:
[0009]S1:获取带有鸟声标注信息的音频数据,对音频数据进行预处理,获得预处理后的音频数据;
[0010]S2:将预处理后的音频数据转化为梅尔频谱图,并将梅尔频谱图以预设比例划分为训练集和验证集;
[0011]S3:利用训练集对构建的基于JDC

CRNN的鸟声检测模型进行预设轮次的训练,设置损失函数,调整鸟声检测检测模型的网络参数,获得训练后的鸟声检测模型;
[0012]S4:设置早停机制,利用验证集对训练后的鸟声检测模型进行测试,获得优化后的鸟声检测模型;
[0013]S5:获取待检测的音频数据,转化为梅尔频谱图;利用优化后的鸟声检测模型对待检测的音频数据的梅尔频谱图进行鸟声检测,获得鸟声检测结果。
[0014]优选地,对音频数据进行的预处理包括分段操作和滤波操作。
[0015]优选地,所述构建的基于JDC

CRNN的鸟声检测模型包括依次连接的检测器、分类器和输出层;所述检测器的输出端还与输出层的输入端连接。
[0016]检测器用于先对训练集中的梅尔频谱图进行初步检测,将检测器结果传给输出层;输出层对检测器结果进行处理,输出一个二进制的初始检测结果,代表当前音频数据应该被忽略还是出给分类器进行进一步检测;当初步检测结果为0时,表示没有鸟声,忽略当前音频数据,反向传播调整检测器和输出层的网络参数;当初步检测结果为1时,表示存在鸟声时,则返回到检测器开始训练分类器;分类器再详细判定音频中是否存在鸟声,将分类器结果传给输出层,输出一个二进制的最终检测结果;检测器的作用是对不存在鸟声的音频数据进行忽略,节省计算资源。
[0017]优选地,所述检测器包括第一最大池化层,第一最大池化层的输出端作为检测器的输出端;
[0018]所述分类器包括依次连接的第一卷积层、第二最大池化层、第二卷积层、第三最大池化层、第三卷积层、第四最大池化层、堆叠处理层、第一递归层、第二递归层和第五最大池化层;
[0019]输出层包括依次连接的前向传播单元和激活函数;前向传播单元的输入端作为输出层的输入端。
[0020]优选地,利用训练集对构建的基于JDC

CRNN的鸟声检测模型进行预设轮次的训练的具体方法为:
[0021]S3.1:将训练集中的梅尔频谱图输入检测器中,检测器对训练集中的梅尔频谱图沿时间轴方向进行压缩,检测是否存在鸟声,获得检测器结果,传递至输出层;
[0022]S3.2:输出层对检测器结果进行处理,获得初始检测结果;若初始检测结果为0,则判定当前梅尔频谱图对应的音频数据中没有鸟声,将初始检测作为最终检测结果;若初始
二值化结果为1,则返回检测器;
[0023]S3.3:检测器将当前梅尔频谱图输入分类器中,还原为预处理后的音频数据,进行局部时频特征提取;再对局部时频特征沿频率轴方向进行压缩后堆叠,提取不同方向的时序全局特征,输出分类器结果;
[0024]S3.4:输出层对分类器结果进行处理,获得最终检测结果;若最终检测结果为0,则判定当前梅尔频谱图对应的音频数据中没有鸟声;若最终检测结果为1,则判定当前梅尔频谱图对应的音频数据中存在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于JDC

CRNN的鸟声检测方法,其特征在于,包括:S1:获取带有鸟声标注信息的音频数据,对音频数据进行预处理,获得预处理后的音频数据;S2:将预处理后的音频数据转化为梅尔频谱图,并将梅尔频谱图以预设比例划分为训练集和验证集;S3:利用训练集对构建的基于JDC

CRNN的鸟声检测模型进行预设轮次的训练,设置损失函数,调整鸟声检测检测模型的网络参数,获得训练后的鸟声检测模型;S4:设置早停机制,利用验证集对训练后的鸟声检测模型进行测试,获得优化后的鸟声检测模型;S5:获取待检测的音频数据,转化为梅尔频谱图;利用优化后的鸟声检测模型对待检测的音频数据的梅尔频谱图进行鸟声检测,获得鸟声检测结果。2.根据权利要求1所述的基于JDC

CRNN的鸟声检测方法,其特征在于,对音频数据进行的预处理包括分段操作和滤波操作。3.根据权利要求1所述的基于JDC

CRNN的鸟声检测方法,其特征在于,所述构建的基于JDC

CRNN的鸟声检测模型包括依次连接的检测器、分类器和输出层;所述检测器的输出端还与输出层的输入端连接。4.根据权利要求3所述的基于JDC

CRNN的鸟声检测方法,其特征在于,所述检测器包括第一最大池化层,第一最大池化层的输出端作为检测器的输出端;所述分类器包括依次连接的第一卷积层、第二最大池化层、第二卷积层、第三最大池化层、第三卷积层、第四最大池化层、堆叠处理层、第一递归层、第二递归层和第五最大池化层;输出层包括依次连接的前向传播单元和激活函数;前向传播单元的输入端作为输出层的输入端。5.根据权利要求4所述的基于JDC

CRNN的鸟声检测方法,其特征在于,利用训练集对构建的基于JDC

CRNN的鸟声检测模型进行预设轮次的训练的具体方法为:S3.1:将训练集中的梅尔频谱图输入检测器中,检测器对训练集中的梅尔频谱图沿时间轴方向进行压缩,检测是否存在鸟声,获得检测器结果,传递至输出层;S3.2:输出层对检测器结果进行处理,获得初始检测结果;若初始检测结果为0,则判定当前梅尔频谱图对应的音频数据中没有鸟声,将初始检测作为最终检测结果;若初始二值化结果为1,则返回检测器;S3.3:检测器将当前梅尔频谱图输入分类器中,还原为预处理后的音频数据,进行局部时频特征提取;再对局部时频特征沿频率轴方向进行压缩后堆叠,提取不同方向的时序全局特征,输出分类器结果;S3.4:输出层对分类器结果进行处理,获得最终检测结果;若最终检测结果为0,则判定当前梅尔频谱图对应的音频数据中没有鸟声;若最终检测结果为1,则判定当前梅尔频谱图对应的音频数据中存在鸟声;S3.5:重复步骤S3.1

3.4,直到完成预设轮次的训练。6.根据权利要求5所述的基于JDC

CRNN的鸟声检测方法,其特征在于,所述步骤S3.3的具体方法为:
S3.3.1:检测器将当前梅尔频谱图输入分类器中,还原为对应的预处理后的音频数据;S3.3.2:预处理后的音频数...

【专利技术属性】
技术研发人员:肖红詹志伟黄子豪姜文超
申请(专利权)人:广州凡沙智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1