一种基于声音事件的动物识别与定位方法及系统技术方案

技术编号:39804373 阅读:13 留言:0更新日期:2023-12-22 02:35
本发明专利技术公开了一种基于声音事件的动物识别与定位方法,包括采集动物声源信息,多通道的音频数据

【技术实现步骤摘要】
一种基于声音事件的动物识别与定位方法及系统


[0001]本专利技术涉及音频处理技术

计算机
,具体涉及一种基于声音事件的动物识别与定位方法及系统


技术介绍

[0002]动物的声音包含丰富的信息,利用动物的声音数据,可以识别动物种类

估计动物位置,从而跟踪野生动物的迁徙轨迹

评估物种丰度,结合动物物种识别与定位,可实现动物多样性监测,有效地对野生动物进行监控与保护

[0003]随着深度学习技术的发展,计算机算法被广泛应用于动物声音的物种识别,但基于声音对动物进行定位多采用传统基于麦克风阵列的信号处理算法,且在定位前需人工处理动物发声的片段,耗费大量的时间和精力,动物声音片段检测

个体定位

动物声音识别分开执行

[0004]声音事件检测,即检测较长录音中动物的发声片段以及识别不同声音事件的分类,可基于深度学习技术,将声音事件检测与动物位置估计结合起来,从获取的录音数据中检测动物发声片段

识别发声动物的种类并对动物进行定位

当前,基于深度学习的声音事件检测与定位模型多采用卷积神经网络和循环神经网络结合的方法,存在未充分利用特征的问题,可进一步优化模型结构,提高检测定位的精度


技术实现思路

[0005]针对现有技术中存在未充分利用特征

检测与定位方法复杂耗时

精度不高等缺陷,本专利技术提出一种基于声音事件的动物识别与定位方法及系统,结合深度可分离卷积和残差注意力网络,对动物的声音事件进行检测,并进行分类识别与个体定位

[0006]本专利技术技术方案及说明如下:一种基于声音事件的动物识别与定位方法,包括以下步骤:采集动物声源信息,包括:多通道的音频数据

对应所述音频数据的声音事件标签和位置标签;提取所述音频数据的浅层特征并输出;使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;通过回归处理输出动物的识别及定位结果

[0007]进一步的,所述的一种基于声音事件的动物识别与定位方法,还包括:对所述音频数据

声音事件标签和位置标签进行划分,划分为训练集和测试集

[0008]进一步的,所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别,位置标签为发声动物的空间坐标

[0009]进一步的,所述的一种基于声音事件的动物识别与定位方法,还包括:
所述音频数据的通道数为三通道或三通道以上,该通道是指平面麦克风阵列中麦克风的数量,一般采用不在同一直线上的三个或三个以上数量的麦克风

[0010]若定位动物在
k
维空间中的位置,则所述音频数据的通道数至少为
k+1。
定位动物即被采集信息的动物,定位动物在
k
维空间中的位置指该动物在空间中的具体位置,例如三维坐标系位置(
x,y,z
)等

[0011]进一步的,所述残差注意力网络包括:标准卷积块

深度可分离卷积残差注意力块(
Residual Block with Attention Module, ResBlk

A
);残差注意力网络首先通过两个卷积层和平均池化层减小输入的浅层特征,然后在输入深度可分离卷积残差注意力模块,用于从输入数据中提取深层特征

[0012]所述深度可分离卷积残差注意力块包括深度可分离卷积层

注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接(
Skip Connection
,跳跃连接是一种在深度神经网络中连接不同层次之间节点的方法),采用深度可分离卷积构建残差块,对标准卷积过程进行分解,首先在每个通道上进行滤波,然后采用1×1点卷积组合每个通道上的输出,显著降低计算成本和模型大小

[0013]所述深度可分离卷积层中深度可分离卷积将标准卷积分为两步,其一为逐深度卷积,在每个通道上对输入数据进行卷积,其二为逐点卷积,将各通道特征进行融合

所述深度可分离卷积提取特征过程如下公式(
a
)所示:
ꢀꢀꢀ

a
)式中, 表示尺寸为
i
×
j
的卷积核,其第
m
个卷积核对输入特征
X

m
个通道进行运算,可得到输出特征图 的第
m
个通道

深度可分离卷积的参数量和计算成本分别如公式(
b
)和公式(
c
)所示:
ꢀꢀꢀꢀ

b

ꢀꢀꢀ

c
)所述深度可分离卷积在第一部分利用逐深度卷积进行滤波处理,对输入的数据在每个通道进行卷积处理,每个卷积核对应一个输入特征图;在逐深度卷积后面加入一个输出特征图为
c
的1×
l
标准卷积进行通道连接,从而保证输出特征图维度与标准卷积一致

[0014]将注意力机制应用于所述残差块,可以学习每个特征通道的重要程度,提升有效特征,忽略对当前任务用处不大的特征,增强深层特征提取模块特征提取的能力

通过堆叠深度可分离卷积残差注意力块
(ResBlk

A)
块构成不同深度的深层特征提取模块,本模型对于基于声音事件检测的定位可以取得更高的精度

[0015]所述注意力层将压缩激励网络模块应用于深层特征提取模块中的每个深度可分离卷积残差块中

对不同通道特征进行加权,进一步加强通道信息的保留,抑制背景噪声对特征提取的干扰,从而提取对识别声音事件和位置信息更有效的高级特征

所述压缩激励网络模块主要分为挤压(
Squeeze


激励(
Excitation
)以及调整输出特征(
Scale
)三个操作

对于残差块输入特征
X
,在通过两个深度可分离卷积块后得到特征图 ,其中高为
H
,宽为
W
,通道数为
C。

SE
模块中,首先对特征图
X
conv
进行挤压,通过全局平均池化操作将每个通道的特征值相加再取平均,得到所有通道的全局
特征,计算表达式如式(
d
)所示
:
ꢀꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于声音事件的动物识别与定位方法,其特征在于,包括以下步骤:采集动物声源信息,包括:多通道的音频数据

对应所述音频数据的声音事件标签和位置标签;提取所述音频数据的浅层特征并输出;使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;通过回归处理输出动物的识别及定位结果
。2.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别,位置标签为发声动物的空间坐标
。3.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,还包括:所述音频数据的通道数为三通道或三通道以上;若定位动物在
k
维空间中的位置,则所述音频数据的通道数至少为
k+1。4.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,所述残差注意力网络包括:标准卷积块

深度可分离卷积残差注意力块;所述深度可分离卷积残差注意力块包括深度可分离卷积层

注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接
。5.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,还包括:所述浅层特征包括声音事件检测特征和定位时频特征;所述声音事件检测特征包括对数梅尔频谱图特征;所述定位时频特征包括广义互相关的相位变换特征
。6.
根据...

【专利技术属性】
技术研发人员:廖志武陈鹏苏枚芳侯蓉何梦楠胡绍湘吴鹏程邱子航马莹
申请(专利权)人:成都大熊猫繁育研究基地
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1