【技术实现步骤摘要】
一种基于声音事件的动物识别与定位方法及系统
[0001]本专利技术涉及音频处理技术
、
计算机
,具体涉及一种基于声音事件的动物识别与定位方法及系统
。
技术介绍
[0002]动物的声音包含丰富的信息,利用动物的声音数据,可以识别动物种类
、
估计动物位置,从而跟踪野生动物的迁徙轨迹
、
评估物种丰度,结合动物物种识别与定位,可实现动物多样性监测,有效地对野生动物进行监控与保护
。
[0003]随着深度学习技术的发展,计算机算法被广泛应用于动物声音的物种识别,但基于声音对动物进行定位多采用传统基于麦克风阵列的信号处理算法,且在定位前需人工处理动物发声的片段,耗费大量的时间和精力,动物声音片段检测
、
个体定位
、
动物声音识别分开执行
。
[0004]声音事件检测,即检测较长录音中动物的发声片段以及识别不同声音事件的分类,可基于深度学习技术,将声音事件检测与动物位置估计结合起来,从获取的录音数据中检测动物发声片段
、
识别发声动物的种类并对动物进行定位
。
当前,基于深度学习的声音事件检测与定位模型多采用卷积神经网络和循环神经网络结合的方法,存在未充分利用特征的问题,可进一步优化模型结构,提高检测定位的精度
。
技术实现思路
[0005]针对现有技术中存在未充分利用特征
、
检测与定位方法复杂耗时
、
精度 ...
【技术保护点】
【技术特征摘要】
1.
一种基于声音事件的动物识别与定位方法,其特征在于,包括以下步骤:采集动物声源信息,包括:多通道的音频数据
、
对应所述音频数据的声音事件标签和位置标签;提取所述音频数据的浅层特征并输出;使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;通过回归处理输出动物的识别及定位结果
。2.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别,位置标签为发声动物的空间坐标
。3.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,还包括:所述音频数据的通道数为三通道或三通道以上;若定位动物在
k
维空间中的位置,则所述音频数据的通道数至少为
k+1。4.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,所述残差注意力网络包括:标准卷积块
、
深度可分离卷积残差注意力块;所述深度可分离卷积残差注意力块包括深度可分离卷积层
、
注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接
。5.
根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,还包括:所述浅层特征包括声音事件检测特征和定位时频特征;所述声音事件检测特征包括对数梅尔频谱图特征;所述定位时频特征包括广义互相关的相位变换特征
。6.
根据...
【专利技术属性】
技术研发人员:廖志武,陈鹏,苏枚芳,侯蓉,何梦楠,胡绍湘,吴鹏程,邱子航,马莹,
申请(专利权)人:成都大熊猫繁育研究基地,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。