【技术实现步骤摘要】
一种基于双通道语音增强的鸟鸣物种识别方法
[0001]本专利技术属于物种监测和语音信号识别领域,特别是一种基于双通道语音增强的鸟鸣物种识别方法。
技术介绍
[0002]鸟类物种多样性是物种多样性和生态环境保护的重要指标,声学监测可以在不干扰鸟类活动前提下,对鸟类的活动进行监测。生物声学研究可以成为调查和监测鸟类的有用工具,同时也可以评估人类活动对鸟类物种的影响。在这种情况下,通过应用声音识别技术,对鸟类物种进行监测,一直是生物学研究中的广为关注的领域。
[0003]近年来,随着国内外学者的研究,出现了很多基于鸟鸣的鸟鸣物种识别方法。常用的方法有:1)基于模板匹配的鸟鸣识别方法;动态时间规整算法是其中最具有代表性的一种算法,可以得到较高的识别效果,但是由于运算量过大的问题,影响了该方法的应用;2)基于特征提取的鸟鸣识别方法;通过对鸟鸣信号提取特征,从而实现鸟类物种的分类,常用的特征有梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)系数、LPC反射系数等,再经SVM、KNN等分类器进行分类后,可得到识别出的鸟类物种;3)基于深度学习的鸟鸣识别方法:最近以来,随着深度学习技术的飞速发展,基于深度学习的鸟鸣识别方法得到越来越多的关注。目前,常用的深度学习模型有VGG、Resnet等卷积神经网络模型,因循环神经网络具有记忆性的特点,LSTM、GRU等模型受到越来越多的关注。
[0004]但是,经研究表明,以上方法均受样本集信噪比的影响较大,当信噪比较高时,很多方法都能表现出不错的分类性能,但随着信噪比降低, ...
【技术保护点】
【技术特征摘要】
1.一种基于双通道语音增强的鸟鸣物种识别方法,其特征在于,所述方法包括以下步骤:步骤1,对采集到的双通道鸟鸣信号进行统一采样;步骤2,对步骤1获得的鸟鸣信号进行滤波和增强处理,形成样本集;步骤3,将样本集划分为训练集和测试集;步骤4,对训练集的鸟鸣信号进行预处理、特征提取、码本构造、编码和降维,获得训练鸟鸣的特征数据集;步骤5,结合步骤4得到的训练鸟鸣的特征数据集,对待识别鸟鸣信号进行预处理、特征提取、VLAD编码、降维,再经分类器分类后得到待识别鸟鸣的物种。2.根据权利要求1所述的基于双通道语音增强的鸟鸣物种识别方法,其特征在于,步骤1中进行统一采样,采样率为44100Hz,采样精度为16bit。3.根据权利要求2所述的基于双通道语音增强的鸟鸣物种识别方法,其特征在于,步骤2所述对步骤1获得的鸟鸣信号进行滤波和增强处理,具体包括:步骤2
‑
1,利用改进的广义旁瓣对消器对鸟鸣信号进行初步降噪;所述广义旁瓣对消器包括:固定波束形成器,用于传递期望方向的信号;阻塞矩阵,用于产生参考噪声信号;自适应噪声消除器,用于消除噪声;泄露抑制模块,用于对阻塞矩阵的输出应用频谱增益,以产生修正的参考噪声;信号恢复模块,用于向固定波束形成器输出添加定量的麦克风信号;步骤2
‑
2,通过后滤波模块进行后滤波处理,具体为:使用瞬态光束参考比TBRR用于检验假设,以确定输入是否包含所需的语音信号,再经噪声谱估计、谱增强估计后得到增强后的单通道的鸟鸣信号。4.根据权利要求1所述的基于双通道语音增强的鸟鸣物种识别方法,其特征在于,步骤4具体包括以下步骤:步骤4
‑
1,对训练集的鸟鸣信号进行预处理,具体为:步骤4
‑1‑
1,首先将输入信号按照2s一个窗长进行划分,且相邻窗之间重叠1.75s,得到若干个窗口并命名为纹理窗口;步骤4
‑1‑
2,计算每个纹理窗口的能量P并将单位转换为dB,同时设置门限P
TH
以滤除纹理窗口中不含鸟鸣的无声窗口,P
TH
的公式为:P
TH
=P
max
‑
20其中,P
max
为输入鸟鸣信号中功率最大的纹理窗口的能量;计算每个纹理窗口的权重为w:w=max{P
‑
P
TH
,0}步骤4
‑1‑
3,对于权重w>0的纹理窗口,按照每帧512个采样点,并且相邻帧之间重叠256个样本点,求出能量最大的帧f
max
,取f
max
前后各127帧,若不足127帧,则做补零处理,得到长度为N
R
=65536的片段,记为识别窗口;步骤4
‑1‑
4,对识别窗口x[n]做归一化处理,公式为:其中,μ为每个识别窗口的均值,σ为标准差;
步骤4
‑
2,对预处理得到的信号,进行离散小波特征提取,具体包括以下步骤:步骤4
‑2‑
1,对信号进行离散小波分解,得到一个低频子带A1和一个高频子带D1,对低频子带进一步分解,得到低频子带A2和高频子带D2,以此经过L次分解后,得到L个高频子带D
l
和一个低频子带A
L
,l=1,2,
…
L;步骤4
‑2‑
2,去除超过奈奎斯特采样率的高频子带D1,对L
‑
1个高频子带D
l
提取同一时刻的系数,组成一个瞬时声学单元,再将每个瞬时声学单元的系数进行最大池化,得到紧凑的表示CU
t
,再经过减均值运算后,得到特征描述符f
t
;假设D
L
的长度为N
L
,则t=1,2,
…
,N
L
,f
t
的公式为:f
t
=[f
t
[1],f
t
[2],...,f
t
[L
‑
1]]
T
式中,f
t
[1],f
t
[2],...,f
t
[L
‑
1]分别表示从L
‑
1个高频子带中提取出的特征;步骤...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。