【技术实现步骤摘要】
一种基于标签层级结构属性关系的鸟类鸣声识别方法
[0001]本专利技术属于生态学与人工智能技术交叉领域,具体涉及一种基于标签层级结构属性关系的鸟类鸣声识别方法
。
技术介绍
[0002]长期运行的基于被动声学监测(
PAM
)的鸟类监测系统将生成大量的记录文件,这些文件需要大量的精力和资源来手动分析
。
鸟类鸣声自动识别可以显著提高每个记录文件的处理效率,这对于实现鸟类智能监测的目标至关重要
。
鸟类鸣声自动识别的本质是对音频信号进行分类,类似于声纹识别
。
近年来,鸟类鸣声自动识别技术已从经典模式识别发展到深度学习,识别性能显著提高
。
用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,典型工作流程主要分解为以下三个主要步骤:预处理
、
特征提取和识别
。
原始录音通过预处理而产生相对干净的鸟叫声
。
特征提取是提取不同鸟类或个体的区分性特征的过程,可以手工制作(即时域
、
频域和时频域的计算),也可以从数据结构中自动学习(例如深度卷积神经网络)
。
识别过程则是将鸟类的发声特征通过分类或聚类得到声音对应的物种或个体
。
[0003]一种理想的鸟类发声自动识别方法应该能够管理嘈杂的野外记录并产生稳健的识别结果,这是确保野生鸟类自动调查和监测成功的一项具有挑战性的任务
。
现有技术的主要缺陷概述如下:(1 ...
【技术保护点】
【技术特征摘要】
1.
一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,包括如下步骤:步骤
1、
对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离
、
预加重
、
分帧
、
加窗
、
离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为
3D
频谱图,获得训练鸟类鸣声识别算法模型所需的特征;步骤
2、
搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的
Xception
模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数
、
底层优先
、
分数优先的路径矫正策略进行后处理;步骤
3、
利用所述鸟类鸣声识别算法模型,对外部测试集进行鸟类鸣声识别,针对焦点声音识别与声景识别两种不同应用场景设计不同的模型推理过程,得到识别结果
。2.
根据权利要求1所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤1包括:步骤(
1.1
)对原始音频的格式进行归一化,获得声音文件;步骤(
1.2
)将声音文件按照训练集:验证集:测试集 = 8:1:1
进行划分;步骤(
1.3
)进行声音文件的信号与噪声分离,包括:将音频通过汉明窗口函数来进行短时傅立叶变换,然后将每个帧元素除以最大值,使得所有值在区间
[0
,
1]
中,形成标准化声谱图;对于信号部分,选择标准化声谱图中大于行中值三倍且大于列中值三倍的所有像素,将这些像素设置为1,将其他像素设置为0;应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器去除噪声并连接片段;创建一个新的指示向量,对标准化声谱图中包含至少一个1的列进行指示,代表提取的信号部分;所述信号部分代表鸟鸣或鸣叫元素;对于噪声部分,选择标准化声谱图中小于行和列中值
2.5
倍的所有像素,将这些像素设置为1,将其他像素设置为0;应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器去除噪声并连接片段;创建一个新的指示向量,对标准化声谱图中包含至少一个1的列进行指示,代表提取的噪声部分;所述噪声部分代表背景声音或杂音;通过连接属于鸟鸣或鸣叫元素
、
背景声音或杂音的所有帧,分别形成
BirdsOnly
文件和
NoiseOnly
文件;将信号部分和噪声部分保存,为后续数据扩充作准备;步骤(
1.4
)通过信号可视化的三维特征图提取构造输入数据;步骤(
1.5
)设计对场景适应的数据增强策略:对于所有鸟类音频,采用以下3种数据增强方法:(
ⅰ
)添加
BirdsOnly
文件中的鸟鸣或鸣叫元素以增加数据集;(
ⅱ
)采用概率为
0.5
的随机频谱图混合,以适应鸣声重叠的情况;(
ⅲ
)采用概率为
0.25
的随机
tanh
失真,以适应低质量音频情况;对于珍稀鸟类和濒危鸟类,分别进行随机数据扩充,以缓解数据中长尾分布的问题,包括以下2种数据增强方法:(
ⅰ
)随机选择并添加来自
NoiseOnly
文件的背景声音或杂音;(
ⅱ
)随机裁剪并拼接同一鸟类音频以扩充样本;上述两种数据增强方法...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。