当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于深度学习的鲸鱼活动音频分类方法技术

技术编号:23402023 阅读:61 留言:0更新日期:2020-02-22 14:05
本发明专利技术涉及一种基于深度学习的鲸鱼活动音频分类方法。包括,1.采集水底语音数据;2.对采集的语音数据进行数据扩充;3.对训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;4.利用声学特征,分别训练两组神经网络模型:基于帧的神经网络系统和基于语音片段的卷积神经网络系统;5.训练完基于帧的神经网络系统之后,提取基于帧的得分输出并做平均值处理,得到得分A;对于基于语音片段的卷积神经网络系统,利用该模型提取深度特征,用深度特征训练后端分类器,由后端分类器输出得分B;6.将得分A与得分B进行融合,得出最终的判断结果。本发明专利技术使用深度学习算法,能够得到更高的识别准确率,在具体应用中能够更加鲁棒,稳定。

A whale activity audio classification method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的鲸鱼活动音频分类方法
本专利技术涉及环境检测
,更具体地,涉及一种基于深度学习的鲸鱼活动音频分类方法。
技术介绍
鲸鱼活动检测的方法包括使用图像技术的方案和使用音频技术的方案。使用图像技术的方案需要相关的录制设备长时间采集数据,功耗和成本都比较高。使用音频技术的方案成本相对较低,相对而言更容易实现。使用音频技术检测鲸鱼活动,大体分为两个模块,数据采集和数据分析。数据采集部分,需要准备水底声呐进行水底声音采集。而数据分析模块需要对鲸鱼叫声进行相应检测。鲸鱼活动音频检测是一种副语言属性的识别任务。针对这种问题,一般的解决方案是:提取段级别的特征进行分类,判断这段音频当中是否存在鲸鱼的叫声。段级别特征主要有以下的几种,包括OpenSMILEComParEset特征集合,语音词袋模型特征(BoAW),AuDeep特征,Fisher编码特征(FisherEncoding)等。分类所使用的分类器包括支持向量机(SVM),多层感知机(MLP)等。OpenSMILEComParEset特征是一个手工提取的特征集合,包含了语音的多本文档来自技高网...

【技术保护点】
1.一种基于深度学习的鲸鱼活动音频分类方法,其特征在于,包括以下步骤:/nS1.采集水底语音数据;/nS2.对采集的语音数据进行数据扩充,增加训练数据量;/nS3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;/nS4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;/nS5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出...

【技术特征摘要】
1.一种基于深度学习的鲸鱼活动音频分类方法,其特征在于,包括以下步骤:
S1.采集水底语音数据;
S2.对采集的语音数据进行数据扩充,增加训练数据量;
S3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;
S5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出音频信号是否为鲸鱼叫声,由后端分类器输出得分B;
S6.将得分A与得分B进行融合,得出最终的判断结果。


2.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。


3.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S3步骤中的声学特征提取选择提取对数梅尔频谱特征,提取方法包括以下步骤:
S31.对语音信号序列进行短时傅里叶变换;
S32.对生成的频率频谱图做梅尔变换;
S33.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。


4.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,对于基于帧的神经网络系统的训练,在训练之前,对提取的声学特征进行前后若干帧的拼接,从而增加上下文信息;之后,将生成的新的帧级别特征输入到网络中,采用时延神经网络结构作为帧级别网络模型。


5.根据权利要求4所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的帧级别网络模型的计算流程包括:
S511.输入的声学特征序列首先会被依次送入全连接神经网络当中,输出一个新的序列特征;
S512.在新的特征上,按照设定的间隔,选取前后帧,与当前的帧的特征进行拼接;
S513.将新生成的特征输入下一层全连接网络当中,输出新的序列特征;
S514.逐渐扩大跳帧的间隔,从1扩大到3,再扩大到5,重复步骤S512和S513;
S515.在最后一层全连接中,输出二维的得分结果,分别代表是否存在鲸...

【专利技术属性】
技术研发人员:巫海维张东
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1