一种基于双通道语音增强的鸟鸣物种识别方法技术

技术编号：35075995 阅读：28 留言：0更新日期：2022-09-28 11:41

本发明专利技术公开了一种基于双通道语音增强的鸟鸣物种识别方法。该方法将采集到的双通道的鸟鸣信号，先经过增加了泄露抑制和信号恢复模块的改进广义旁瓣对消器进行初步降噪，再经过双通道的后滤波进行进一步降噪，得到更纯净的期望鸟鸣信号；将增强后的鸟鸣信号分成训练集和测试集，训练鸟鸣经过预处理、特征提取、码本构造、编码、降维后，建立起训练鸟鸣的特征数据库；对于待识别的鸟鸣，经过预处理、特征提取、编码、降维转换、分类后即可得到识别出的鸟类物种。本发明专利技术实用性强、经济便捷，能充分利用采集到的双通道鸟鸣信号信息，通过波束形成算法对信号进行增强处理能够提高鸟鸣信号的信噪比，从而提高鸟鸣物种识别的准确率。从而提高鸟鸣物种识别的准确率。从而提高鸟鸣物种识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双通道语音增强的鸟鸣物种识别方法

[0001]本专利技术属于物种监测和语音信号识别领域，特别是一种基于双通道语音增强的鸟鸣物种识别方法。

技术介绍

[0002]鸟类物种多样性是物种多样性和生态环境保护的重要指标，声学监测可以在不干扰鸟类活动前提下，对鸟类的活动进行监测。生物声学研究可以成为调查和监测鸟类的有用工具，同时也可以评估人类活动对鸟类物种的影响。在这种情况下，通过应用声音识别技术，对鸟类物种进行监测，一直是生物学研究中的广为关注的领域。
[0003]近年来，随着国内外学者的研究，出现了很多基于鸟鸣的鸟鸣物种识别方法。常用的方法有：1)基于模板匹配的鸟鸣识别方法；动态时间规整算法是其中最具有代表性的一种算法，可以得到较高的识别效果，但是由于运算量过大的问题，影响了该方法的应用；2)基于特征提取的鸟鸣识别方法；通过对鸟鸣信号提取特征，从而实现鸟类物种的分类，常用的特征有梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)系数、LPC反射系数等，再经SVM、KNN等分类器进行分类后，可得到识别出的鸟类物种；3)基于深度学习的鸟鸣识别方法：最近以来，随着深度学习技术的飞速发展，基于深度学习的鸟鸣识别方法得到越来越多的关注。目前，常用的深度学习模型有VGG、Resnet等卷积神经网络模型，因循环神经网络具有记忆性的特点，LSTM、GRU等模型受到越来越多的关注。
[0004]但是，经研究表明，以上方法均受样本集信噪比的影响较大，当信噪比较高时，很多方法都能表现出不错的分类性能，但随着信噪比降低，...

【技术保护点】

【技术特征摘要】
1.一种基于双通道语音增强的鸟鸣物种识别方法，其特征在于，所述方法包括以下步骤：步骤1，对采集到的双通道鸟鸣信号进行统一采样；步骤2，对步骤1获得的鸟鸣信号进行滤波和增强处理，形成样本集；步骤3，将样本集划分为训练集和测试集；步骤4，对训练集的鸟鸣信号进行预处理、特征提取、码本构造、编码和降维，获得训练鸟鸣的特征数据集；步骤5，结合步骤4得到的训练鸟鸣的特征数据集，对待识别鸟鸣信号进行预处理、特征提取、VLAD编码、降维，再经分类器分类后得到待识别鸟鸣的物种。2.根据权利要求1所述的基于双通道语音增强的鸟鸣物种识别方法，其特征在于，步骤1中进行统一采样，采样率为44100Hz，采样精度为16bit。3.根据权利要求2所述的基于双通道语音增强的鸟鸣物种识别方法，其特征在于，步骤2所述对步骤1获得的鸟鸣信号进行滤波和增强处理，具体包括：步骤2
‑
1，利用改进的广义旁瓣对消器对鸟鸣信号进行初步降噪；所述广义旁瓣对消器包括：固定波束形成器，用于传递期望方向的信号；阻塞矩阵，用于产生参考噪声信号；自适应噪声消除器，用于消除噪声；泄露抑制模块，用于对阻塞矩阵的输出应用频谱增益，以产生修正的参考噪声；信号恢复模块，用于向固定波束形成器输出添加定量的麦克风信号；步骤2
‑
2，通过后滤波模块进行后滤波处理，具体为：使用瞬态光束参考比TBRR用于检验假设，以确定输入是否包含所需的语音信号，再经噪声谱估计、谱增强估计后得到增强后的单通道的鸟鸣信号。4.根据权利要求1所述的基于双通道语音增强的鸟鸣物种识别方法，其特征在于，步骤4具体包括以下步骤：步骤4
‑
1，对训练集的鸟鸣信号进行预处理，具体为：步骤4
‑1‑
1，首先将输入信号按照2s一个窗长进行划分，且相邻窗之间重叠1.75s，得到若干个窗口并命名为纹理窗口；步骤4
‑1‑
2，计算每个纹理窗口的能量P并将单位转换为dB，同时设置门限P
TH
以滤除纹理窗口中不含鸟鸣的无声窗口，P
TH
的公式为：P
TH
＝P
max
‑
20其中，P
max
为输入鸟鸣信号中功率最大的纹理窗口的能量；计算每个纹理窗口的权重为w：w＝max{P
‑
P
TH
,0}步骤4
‑1‑
3，对于权重w>0的纹理窗口，按照每帧512个采样点，并且相邻帧之间重叠256个样本点，求出能量最大的帧f
max
，取f
max
前后各127帧，若不足127帧，则做补零处理，得到长度为N
R
＝65536的片段，记为识别窗口；步骤4
‑1‑
4，对识别窗口x[n]做归一化处理，公式为：其中，μ为每个识别窗口的均值，σ为标准差；
步骤4
‑
2，对预处理得到的信号，进行离散小波特征提取，具体包括以下步骤：步骤4
‑2‑
1，对信号进行离散小波分解，得到一个低频子带A1和一个高频子带D1，对低频子带进一步分解，得到低频子带A2和高频子带D2，以此经过L次分解后，得到L个高频子带D
l
和一个低频子带A
L
，l＝1,2,
…
L；步骤4
‑2‑
2，去除超过奈奎斯特采样率的高频子带D1，对L
‑
1个高频子带D
l
提取同一时刻的系数，组成一个瞬时声学单元，再将每个瞬时声学单元的系数进行最大池化，得到紧凑的表示CU
t
，再经过减均值运算后，得到特征描述符f
t
；假设D
L
的长度为N
L
,则t＝1,2,
…
,N
L
，f
t
的公式为：f
t
＝[f
t
[1],f
t
[2],...,f
t
[L
‑
1]]
T
式中，f
t
[1],f
t
[2],...,f
t
[L
‑
1]分别表示从L
‑
1个高频子带中提取出的特征；步骤...

【专利技术属性】
技术研发人员：赵兆，杨露，许志勇，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人