一种基于图像处理的鸟鸣声特征强化方法技术

技术编号:21362479 阅读:68 留言:0更新日期:2019-06-15 09:33
本发明专利技术公开了一种基于图像处理的鸟鸣声特征强化方法,涉及图像处理、深度学习和鸟类识别技术。本方法是:①对鸟鸣声数据集进行预处理,包括重采样和归一化,得到鸟鸣声的频谱图;②对频谱图进行信噪分离,得到信号谱图和噪声谱图;③对所有频谱图进行分块;④对分块后的信号谱图进行数据增强:⑤通过Jet映射对数据增强后的灰度图像进行伪彩色处理,得到三通道RGB彩色图像;⑥通过迁移学习方式,得到识别结果。本发明专利技术的有益效果是:①用于高效地进行鸟类自动识别;②通过将一维时域的鸟鸣声信号转换为二维时频域的生物频谱信息;③图像处理包括:鸟鸣声信噪分离、特异性数据增强和视觉感知力增强,为深度学习在鸟类自动识别领域的探索更进一步。

A Method of Bird Singing Feature Enhancement Based on Image Processing

The invention discloses a bird song feature enhancement method based on image processing, which relates to image processing, in-depth learning and bird recognition technology. The method is as follows: (1) Preprocessing the data set of bird song, including resampling and normalization, to obtain the spectrum of bird song; (2) Separating the signal and noise from the spectrum, to get the spectrum of signal and noise; (3) dividing all the spectrum into blocks; (4) Data enhancement of the signal spectrum after block; (5) Pseudo-color processing of the gray image after data enhancement through Jet mapping Three-channel RGB color images are obtained. _The recognition results are obtained by transfer learning. The beneficial effects of the present invention are: (1) for efficient automatic bird recognition; (2) by converting the bird song signal in one-dimensional time domain into the bio-spectral information in two-dimensional time-frequency domain; (3) image processing includes: separation of the bird song signal and noise, enhancement of specific data and enhancement of visual perception, which further explores the field of bird automatic recognition for in-depth learning.

【技术实现步骤摘要】
一种基于图像处理的鸟鸣声特征强化方法
本专利技术涉及图像处理、深度学习和鸟类识别
,特别是涉及一种基于图像处理的鸟鸣声特征强化方法。
技术介绍
生物多样性是人类赖以生存的条件,是社会可持续发展的战略资源,是生态安全和粮食安全的重要保障。由于分布范围广、研究资料齐全和对环境的敏感性,鸟类是生物多样性的重要指示类群。掌握鸟类种群现状及其动态变化信息,对保护和评估生态系统都具有重要意义。鸟类鸣声多种多样,包含了重要的行为意义、物种特异性和丰富的生物学信息,同时也是对其进行物种识别的主要手段。鸟鸣声的分类学意义,目前已成为鸟声研究与鸟类系统分类学研究交叉的热点。生物频谱作为声景观生态学理论分析的重要组成部分,是监测、研究和分析生态系统多样性的重要途径。利用适当的方法对其进行分析能够充分展现声音的时频特性,从而有效地识别出生物的差异性。鸟鸣声谱图作为研究鸟的物种属性的重要途径,其频谱分析对鸟类多样性监测至关重要。深度学习是目前机器学习学科发展最蓬勃的分支,也是整个人工智能领域中应用前景最为广阔的技术。随着深度学习在计算机视觉领域的不断突破,运用其处理图像识别任务已成为一种高效且专业的技术。在该技术背景的支持下,本专利技术结合鸟鸣声特性,对鸟鸣声谱图进行了针对性的处理。
技术实现思路
本专利技术旨在提供一种基于图像处理的鸟鸣声特征强化方法,以解决现有技术在识别过程中的鸣声特征不突出、噪声干扰严重和生物频谱信息不全面的问题。为实现上述目的,本专利技术的技术方案为:具体地说,一种基于图像处理的鸟鸣声特征强化方法包括以下步骤:①对鸟鸣声数据集进行预处理,包括重采样和归一化,得到鸟鸣声的频谱图;②对频谱图进行信噪分离,得到信号谱图和噪声谱图;其中,信号谱图包含鸣唱和鸣叫部分,噪声谱图包含噪音和静音部分,信号谱图作为原始训练样本,噪声谱图用于背景噪声增强的一种途径;③对步骤②中信噪分离后的所有频谱图进行分块,并调整每小块频谱图的大小以适合用于训练的神经网络的输入维度;④对步骤③中分块后的信号谱图进行数据增强,由于频谱图不同于传统图像,之间的差异限制了广泛的图像处理技术的直接应用;综合考量鸟鸣声和频谱图的特性,本数据增强处理特别方法包括频域变换、噪声添加和同类样本混合:⑤为增强灰度图像的视觉感知力,同时方便对不同的神经网络进行迁移学习,通过Jet映射对数据增强后的灰度图像进行伪彩色处理,得到三通道RGB彩色图像,将这些三通道RGB彩色图像分为训练集和测试集,其中训练集占80%,测试集占20%;⑥通过迁移学习方式,选取合适的神经网络模型,对其进行微调并使用步骤⑤中的训练集进行训练,最终通过验证集验证模型准确率,得到识别结果。相较于现有技术,本专利技术的有益效果是:①针对自然复杂声学环境下基于鸟鸣声的物种分类问题,提出一种基于图像处理的鸟鸣声特征强化方法;缓解了鸟鸣声在识别过程中的背景噪声高、鸣声特征不突出、鸣声数据不平衡和生物频谱信息不全面等问题,用于高效地进行鸟类自动识别;②通过将一维时域的鸟鸣声信号转换为二维时频域的生物频谱信息,再灵活运用一系列图像处理的方法突显频谱图中的鸟鸣声特征,增强生物频谱信息的可视化呈现,并能通过深度学习的方法得以验证;③图像处理包括:鸟鸣声信噪分离、特异性数据增强和视觉感知力增强;本专利技术区别于一般可视化任务的图像分类方法,始终围绕各个识别环节中鸟鸣声特征的呈现,做出针对性强的图像处理策略,为深度学习在鸟类自动识别领域的探索更进一步。附图说明图1为本方法的流程图。具体实施方式一、方法1、鸟鸣声信噪分离步骤②对频谱图进行信噪分离,得到信号谱图和噪声谱图;信号谱图的分离方法为:设定一个阈值N,如果频谱图中某个像素值高于相应行及其相应列的中值的N倍,则将其置为1,否则置为0;噪声谱图的分离方法为:设定一个阈值n(n<N),如果某个像素值高于相应行及其相应列的中值的n倍,则将其置为0,否则置为1。2、特异性数据增强步骤④对分块后的信号谱图进行数据增强,包括频域变换、噪声添加和同类样本混合;A、频域变换a、对原始鸟鸣声音频的音高进行随机改变,变动幅度不宜超过5%,然后重复步骤①②③;b、对原始鸟鸣声音频的音量进行随机改变,变动幅度不宜超过5%,然后重复步骤①②③;B、噪声添加a、将随机高斯噪声添加到步骤②中的信号谱图,并重新标准化得到的图像;b、将步骤②中的噪声部分随机添加到步骤②中的信号谱图,作为训练样本;C、同类样本混合对同一种鸟的不同音频信噪分离后的信号谱图进行随机混合。3、视觉感知力增强为进一步增强灰度图像的视觉感知力,同时考虑到迁移学习对模型输入前数据维度的限定,通过Jet映射进行伪彩色处理,增加不同强度区域之间的对比度以提高识别性能。不同区域分别映射成红、绿、蓝三个单色图像,并对应高、中、和低功率频谱信息,红色表示最高能量的声音特性,近似为鸣唱/鸣叫特性。根据上述鸟鸣声频谱图的图像处理方法,选取混合模型SE-ResNeXt-50进行迁移学习可以从大量鸟鸣声谱图中得到精确高效的识别结果。二、实施例本方法是将一维时域的鸟鸣声信号转换为二维时频域的生物频谱信息,再灵活运用一系列图像处理的方法突显频谱图中的鸟鸣声特征,相较于一般通用的图像识别方法,本专利技术更具针对性和识别高效性。实验数据来源于Xeno-Canto数据库,该数据库大多数音频文件采样率为44.1kHz,16bit,单声道,也作为前期数据格式的统一标准。①对已知的鸟鸣声数据集进行预处理,重采样为44.1kHz采样率,使用具有汉宁窗函数的短时傅里叶变换(STFT)计算鸟鸣声的频谱图,并对频谱图进行最大值归一化,使频谱信息的动态范围映射到[0,1]范围内,然后将频谱图处理为灰度图像。②对频谱图进行信噪分离:信号谱图包含鸣唱和鸣叫部分,噪声谱图包含噪音和静音部分;大多数的鸟鸣声音频中,前景鸟鸣声信号的幅度高于背景噪声;我们利用这一规律降低背景噪声以分离出信号谱图:设定一个阈值N,如果频谱图中某个像素值高于相应行及其相应列的中值的N倍,则将其置为1,否则置为0。这种做法近似凸显了频谱图中所有重要的鸟鸣声信号,因为高振幅通常对应于鸟类的鸣唱或鸣叫;同时不同频率区域中的噪声水平得到补偿和缩减,由不可控因素的背景噪声所造成的宽带失真被衰减;对于该步骤产生的背景噪声,应用二进制腐蚀和膨胀滤波器来消除噪声和连接段,或结合部分图像形态学处理的手段;对于噪声谱图的分离,我们遵循相似的步骤:设定一个阈值n(n<N),如果某个像素值高于相应行及其相应列的中值的n倍,则将其置为0,否则置为1;与信号谱图的分离步骤之所以采用不同的阈值,是因为阈值N已经是为了凸显信号部分适当做出的过量选择,我们希望为此提供一个安全的缓减余地,处在该缓冲区的信号既不具备清晰的鸣声特征,也不影响后续用于进行数据增强的噪声部分的信息量;综上,未被选为信号或噪声谱图的所有内容几乎不向后续的神经网络提供任何有效信息。③对信噪分离后的信号谱图和噪声谱图进行分块,考虑到后续迁移学习用到的神经网络模型,将每一块裁剪到299×299像素;④对分块后的灰度谱图进行数据增强,数据增强技术能够缓解数据集中普遍存在的部分鸟鸣声数据稀少和不同鸟类之间出现数据严重失衡的情况;而且通过丰富训练数据集,能够减轻模型训本文档来自技高网...

【技术保护点】
1.一种基于图像处理的鸟鸣声特征强化方法,其特征在于包括以下步骤:①对鸟鸣声数据集进行预处理,包括重采样和归一化,得到鸟鸣声的频谱图;②对频谱图进行信噪分离,得到信号谱图和噪声谱图;其中,信号谱图包含鸣唱和鸣叫部分,噪声谱图包含噪音和静音部分,信号谱图作为原始训练样本,噪声谱图用于背景噪声增强的一种途径;③对步骤②中信噪分离后的所有频谱图进行分块,并调整每小块频谱图的大小以适合用于训练的神经网络的输入维度;④对步骤③中分块后的信号谱图进行数据增强,由于频谱图不同于传统图像,之间的差异限制了广泛的图像处理技术的直接应用;综合考量鸟鸣声和频谱图的特性,本数据增强处理特别方法包括频域变换、噪声添加和同类样本混合:⑤为增强灰度图像的视觉感知力,同时方便对不同的神经网络进行迁移学习,通过Jet映射对数据增强后的灰度图像进行伪彩色处理,得到三通道RGB彩色图像,将这些三通道RGB彩色图像分为训练集和测试集,其中训练集占80%,测试集占20%;⑥通过迁移学习方式,选取合适的神经网络模型,对其进行微调并使用步骤⑤中的训练集进行训练,最终通过验证集验证模型准确率,得到识别结果。

【技术特征摘要】
1.一种基于图像处理的鸟鸣声特征强化方法,其特征在于包括以下步骤:①对鸟鸣声数据集进行预处理,包括重采样和归一化,得到鸟鸣声的频谱图;②对频谱图进行信噪分离,得到信号谱图和噪声谱图;其中,信号谱图包含鸣唱和鸣叫部分,噪声谱图包含噪音和静音部分,信号谱图作为原始训练样本,噪声谱图用于背景噪声增强的一种途径;③对步骤②中信噪分离后的所有频谱图进行分块,并调整每小块频谱图的大小以适合用于训练的神经网络的输入维度;④对步骤③中分块后的信号谱图进行数据增强,由于频谱图不同于传统图像,之间的差异限制了广泛的图像处理技术的直接应用;综合考量鸟鸣声和频谱图的特性,本数据增强处理特别方法包括频域变换、噪声添加和同类样本混合:⑤为增强灰度图像的视觉感知力,同时方便对不同的神经网络进行迁移学习,通过Jet映射对数据增强后的灰度图像进行伪彩色处理,得到三通道RGB彩色图像,将这些三通道RGB彩色图像分为训练集和测试集,其中训练集占80%,测试集占20%;⑥通过迁移学习方式,选取合适的神经网络模型,...

【专利技术属性】
技术研发人员:杨春勇祁宏达侯金陈少平
申请(专利权)人:中南民族大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1