一种基于标签层级结构属性关系的鸟类鸣声识别方法技术

技术编号:39514311 阅读:11 留言:0更新日期:2023-11-25 18:51
本发明专利技术提供一种基于标签层级结构属性关系的鸟类鸣声识别方法,属于生态学与人工智能技术交叉领域,包括:为每只鸟(如目

【技术实现步骤摘要】
一种基于标签层级结构属性关系的鸟类鸣声识别方法


[0001]本专利技术属于生态学与人工智能技术交叉领域,具体涉及一种基于标签层级结构属性关系的鸟类鸣声识别方法


技术介绍

[0002]长期运行的基于被动声学监测(
PAM
)的鸟类监测系统将生成大量的记录文件,这些文件需要大量的精力和资源来手动分析

鸟类鸣声自动识别可以显著提高每个记录文件的处理效率,这对于实现鸟类智能监测的目标至关重要

鸟类鸣声自动识别的本质是对音频信号进行分类,类似于声纹识别

近年来,鸟类鸣声自动识别技术已从经典模式识别发展到深度学习,识别性能显著提高

用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,典型工作流程主要分解为以下三个主要步骤:预处理

特征提取和识别

原始录音通过预处理而产生相对干净的鸟叫声

特征提取是提取不同鸟类或个体的区分性特征的过程,可以手工制作(即时域

频域和时频域的计算),也可以从数据结构中自动学习(例如深度卷积神经网络)

识别过程则是将鸟类的发声特征通过分类或聚类得到声音对应的物种或个体

[0003]一种理想的鸟类发声自动识别方法应该能够管理嘈杂的野外记录并产生稳健的识别结果,这是确保野生鸟类自动调查和监测成功的一项具有挑战性的任务

现有技术的主要缺陷概述如下:(1)复杂的野外录音环境

在野外录音中,总有环境噪音,如自然环境音(风

雨等)和人造环境音(人为活动声音),这些声音可能会掩盖鸟类的叫声

此外,鸟群中相同或不同种类的鸟类可能会彼此合唱,导致录音中的声音重叠

上述情况使得识别瞬态

部分掩盖或重叠的发声变得困难,导致识别不正确,这对大多数现有的识别方法来说是一个巨大的挑战

[0004](2)巨大的种内发声差异

首先,鸟类拥有自己的发声曲目,其大小和复杂性取决于物种

其次,生活在不同地区的同一物种的鸟类发声可能存在差异

最后,由于发声可能被记录在不同的距离,其振幅

频率会有不同程度的扭曲

所有这些因素都导致了物种内的高度变异,使得学习完全有代表性的特定物种特征变得具有挑战性

[0005](3)有限的人工标注数据

一方面,收集到不同种类的鸣声数据显著不平衡,数据集呈现严重的长尾分布

另一方面,为了防止结果产生偏差,现有的识别方法往往容易过度拟合训练数据,这需要消耗非常大且具有代表性的训练数据集,这些数据集涵盖了野外的自然变异

因此,缺乏全面的

经过专家验证的数据集已成为训练通用且强大的分类器的最基本知识缺口

[0006](4)物种间自然属性关系的生物信息缺失

每种鸟类都隶属于唯一的目







大多数现有的方法忽视了不同鸟类种群之间固有的自然亲缘关系,而这往往隐含大量的生物学信息

例如属于同一科或同一属的鸟类鸣声可能会极其相似


技术实现思路

[0007]为解决上述技术问题,本专利技术提供一种基于标签层级结构属性关系的鸟类鸣声识别方法,从数据

特征

模型三个不同层面对上述技术问题提出相应的解决策略

本专利技术将物种间的自然层级关系作为先验知识引入分类网络,同时预测对象各层级标签,可以有效地规范特征语义空间;采用场景适应的数据增强方式,以应数据分布不均

不同野外噪音覆盖目标信号等问题

本专利技术可以大大提升类别预测的准确性并降低分类错误损失

[0008]为达到上述目的,本专利技术采用如下技术方案:一种基于标签层级结构属性关系的鸟类鸣声识别方法,包括如下步骤:步骤
1、
对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离

预加重

分帧

加窗

离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为
3D
频谱图,获得训练鸟类鸣声识别算法模型所需的特征;步骤
2、
搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的
Xception
模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数

底层优先

分数优先的路径矫正策略进行后处理;步骤
3、
利用所述鸟类鸣声识别算法模型,对外部测试集进行鸟类鸣声识别,针对焦点声音识别与声景识别两种不同应用场景设计不同的模型推理过程,得到识别结果

[0009]有益效果:考虑到鸟类声音的种群相似关系,本专利技术利用鸟类的生态学信息构建了层级关系网,设计了基于层级关系的建模框架,可以对鸟类鸣声进行更细致

更准确的分类

[0010]注意力机制有助于突出音频数据中的重要特征,提高模型的整体性能;正交分解和融合模块能够组合不同类型的特征,从而更全面地表示鸟鸣;路径矫正的后处理策略有助于细化结果并减少错误分类的严重程度

[0011]最后,本专利技术提出的一种场景适应的数据增强策略能够有效应对真实场景中的复杂环境噪声以及多样化的种群发声;其中,针对稀有鸟类设计的数据扩充方式能够缓解数据的长尾分布问题,进一步提升识别准确率

附图说明
[0012]图1为本专利技术实施例提供的一种基于标签层级结构属性关系的鸟类鸣声识别方法的流程图;图2为本专利技术实施例提供的声音特征提取过程流程图;图3为本专利技术实施例提供的底层网络结构示意图;图4为本专利技术实施例提供的树级层次关系结构示意图

具体实施方式
[0013]为了使本专利技术的目的

技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明

应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不
用于限定本专利技术

此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合

[0014]本专利技术提供了一种基于标签层级结构属性关系的鸟类鸣本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,包括如下步骤:步骤
1、
对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离

预加重

分帧

加窗

离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为
3D
频谱图,获得训练鸟类鸣声识别算法模型所需的特征;步骤
2、
搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的
Xception
模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数

底层优先

分数优先的路径矫正策略进行后处理;步骤
3、
利用所述鸟类鸣声识别算法模型,对外部测试集进行鸟类鸣声识别,针对焦点声音识别与声景识别两种不同应用场景设计不同的模型推理过程,得到识别结果
。2.
根据权利要求1所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤1包括:步骤(
1.1
)对原始音频的格式进行归一化,获得声音文件;步骤(
1.2
)将声音文件按照训练集:验证集:测试集 = 8:1:1
进行划分;步骤(
1.3
)进行声音文件的信号与噪声分离,包括:将音频通过汉明窗口函数来进行短时傅立叶变换,然后将每个帧元素除以最大值,使得所有值在区间
[0

1]
中,形成标准化声谱图;对于信号部分,选择标准化声谱图中大于行中值三倍且大于列中值三倍的所有像素,将这些像素设置为1,将其他像素设置为0;应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器去除噪声并连接片段;创建一个新的指示向量,对标准化声谱图中包含至少一个1的列进行指示,代表提取的信号部分;所述信号部分代表鸟鸣或鸣叫元素;对于噪声部分,选择标准化声谱图中小于行和列中值
2.5
倍的所有像素,将这些像素设置为1,将其他像素设置为0;应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器去除噪声并连接片段;创建一个新的指示向量,对标准化声谱图中包含至少一个1的列进行指示,代表提取的噪声部分;所述噪声部分代表背景声音或杂音;通过连接属于鸟鸣或鸣叫元素

背景声音或杂音的所有帧,分别形成
BirdsOnly
文件和
NoiseOnly
文件;将信号部分和噪声部分保存,为后续数据扩充作准备;步骤(
1.4
)通过信号可视化的三维特征图提取构造输入数据;步骤(
1.5
)设计对场景适应的数据增强策略:对于所有鸟类音频,采用以下3种数据增强方法:(

)添加
BirdsOnly
文件中的鸟鸣或鸣叫元素以增加数据集;(

)采用概率为
0.5
的随机频谱图混合,以适应鸣声重叠的情况;(

)采用概率为
0.25
的随机
tanh
失真,以适应低质量音频情况;对于珍稀鸟类和濒危鸟类,分别进行随机数据扩充,以缓解数据中长尾分布的问题,包括以下2种数据增强方法:(

)随机选择并添加来自
NoiseOnly
文件的背景声音或杂音;(

)随机裁剪并拼接同一鸟类音频以扩充样本;上述两种数据增强方法...

【专利技术属性】
技术研发人员:王情雨宋艳枝杨周旺
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1