基于特征融合的鸟类声音智能识别方法技术

技术编号：40709592 阅读：5 留言：0更新日期：2024-03-22 11:10

本申请涉及语音处理技术领域，提出了基于特征融合的鸟类声音智能识别方法，包括：采集生态区内不同鸟类的鸟鸣数据；基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量；基于每个鸟鸣数据的频谱向量在自编码器潜在空间每个维度上的投影长度确定音频信息相关系数；基于频谱向量与相同潜在空间维度之间的音频信息相关系数确定维度区分系数；根据频谱向量以及维度区分系数确定鸟鸣特征向量；基于鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果。本申请能够利用不同维度作为坐标系维度，并通过维度递增的方式对相似度较高的鸟鸣数据准确区分，提高鸟类声音的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，具体涉及基于特征融合的鸟类声音智能识别方法。

技术介绍

1、鸟类是自然生态系统中的重要成员，通过对鸟类鸟叫数据的监测能够从一定程度生反应生态区域内生态系统的循环流畅程度和生态平衡的稳定性。因此通过对生态区内鸟鸣数据的识别与监测，能够反应生态区内的生态适宜性，辅助生态区的管理人员更好的维护生态区内的生态环境。

2、鸟鸣识别的过程涉及多个步骤，包括采集鸟鸣数据、鸟鸣数据的预处理、数据特征的提取、鸟鸣识别等。数据特征的提取是指从鸟鸣信号中提取有意义的特征来表示语音，对鸟类声音的识别至关重要，现阶段常用的音频特征包括梅尔倒谱系数mfcc(mel frequencycepstral coefficients)、线性预测倒谱系数lpcc(linear predictive cepstralcoefficients)、谱线频率lsf(line spectral frequencies)等等，每种音频特征对音频数据的表达能力不同，例如的优点是具有很好的人类感知属性，能够有效地抽取语音信号的关键特征，lpcc与mfcc相比，在抗噪能力和特征表达能力方面具有一定优势，但是mfcc反映的是通常是语音信号的静态特征，不能反映鸟鸣过程中的动态特征；而lpcc易受到噪声的干扰，因此需要从鸟鸣信号中提取不同的特征进行融合，提高鸟类智能识别的精度。

技术实现思路

1、本申请提供基于特征融合的鸟类声音智能识别方法，以解决单一音频特征不能充分反映鸟鸣过程中动态变化的问题，所采用的技术方案具体如下：

2、本申请一个实施例提供了基于特征融合的鸟类声音智能识别方法，该方法包括以下步骤：

3、采集生态区内不同鸟类的鸟鸣数据；

4、基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量；基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数；

5、基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数；

6、根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量；

7、基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果。

8、优选的，所述基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量的方法为：

9、将每个鸟鸣数据的频谱图上所有相邻振幅峰值之间时间间隔的均值作为每个鸟鸣数据的频谱图上的分割时长；

10、利用所述分割时长将每个鸟鸣数据的频谱图划分为不同的图像块，利用预设尺度的滑动窗口以预设滑动步长在每个图像块内沿着频率上升的方向滑动，将每个滑动窗口内所有采样点的能量值组成的矩阵作为每个滑动窗口的能量矩阵；

11、利用局部二值算法获取每个滑动窗口的能量矩阵中每个元素的lbp值，将每个图像块内每种不相等的lbp值作为一类lbp值，将每个图像块内所有类lbp值按照每类lbp出现频率降序顺序排列得到的向量作为每个图像块的能力二值向量；

12、将每个鸟鸣数据的频谱图上所有图像块的能力二值向量按照时间顺序组成的向量作为每个鸟鸣数据的频谱向量。

13、优选的，所述基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数的方法为：

14、基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量；

15、将每个鸟鸣数据的频谱向量与每个潜在空间维度的显著向量之间的度量距离与预设参数之和作为分母；

16、将每个鸟鸣数据的频谱向量在每个潜在空间维度上的投影长度与分母的比值作为每个鸟鸣数据与每个潜在空间维度之间的音频信息相关系数。

17、优选的，所述基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量的方法为：

18、将每种鸟类下每个鸟鸣数据的频谱向量作为矩阵的一个行向量，将所有种鸟类下所有鸟鸣数据的频谱向量按照种类排列组成的矩阵作为多种类频谱矩阵；

19、利用生态区数据中心已有鸟鸣信号的声音数据对应的频谱向量训练神经网络自编码器，提取训练后的神经网络自编码器中的编码器部分，将多种类频谱矩阵作为输入，采用所述编码部分将多种类频谱矩阵中每个行向量都映射为相应的低维表示；

20、将神经网络自编码器中潜在空间中距离每个维度欧式距离最小的低维数据点组成的向量作为每个潜在空间维度的显著向量。

21、优选的，所述基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数的方法为：

22、根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度；

23、根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度；

24、将两种鸟类下两个鸟鸣数据的信息成分区分度在量子鸟类下所有鸟鸣数据上累加结果的均值作为每个潜在空间维度关于两种鸟类的维度区分系数。

25、优选的，所述根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度的方法为：

26、将所有鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数作为输入，采用数据聚类算法获取所述音频信息相关系数的聚类结果；

27、将每种鸟类下每个鸟鸣数据与每个潜在空间维度之间的信息相关系数所在聚类簇中元素的数量作为分母；

28、将每种鸟类下每个鸟鸣数据与每个潜在空间维度之间的信息相关系数所在聚类簇中对应同种鸟类的元素数量与分母的比值作为每种鸟类下每个鸟鸣数据的同类映射密度。

29、优选的，所述根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度的方法为：

30、

31、式中，是第1个潜在空间维度对a、b两种鸟类中第c、p个鸟鸣数据之间的信息成分区分度，是第a种鸟类中第c个鸟鸣数据的同类映射密度，是删除第b种鸟类与第1个潜在空间维度之间的音频信息相关系数后第a种鸟类中第c个鸟鸣数据的同类映射密度；是第b种鸟类中第p个鸟鸣数据的同类映射密度、是删除第a种鸟类与第1个潜在空间维度之间的音频信息相关系数后，第b种鸟类中第p个鸟鸣数据的同类映射密度；是调参因子。

32、优选的，所述根据不同鸟本文档来自技高网...

【技术保护点】

1.基于特征融合的鸟类声音智能识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量的方法为：

3.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数的方法为：

4.根据权利要求3所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量的方法为：

5.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数的方法为：

6.根据权利要求5所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据所有鸟鸣数据与相同潜

7.根据权利要求5所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度的方法为：

8.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量的方法为：

9.根据权利要求8所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据每种鸟类与其余任意一种鸟类鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标系中的映射向量确定每种鸟类的类代表向量的方法为：

10.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果的方法为：

...

【技术特征摘要】

1.基于特征融合的鸟类声音智能识别方法，其特征在于，该方法包括以下步骤：

6.根据权利要求5所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据所有鸟...

【专利技术属性】
技术研发人员：白莹，张晓东，蔡宪文，
申请(专利权)人：百鸟数据科技北京有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人