当前位置: 首页 > 专利查询>天津大学专利>正文

基于关键点编码和多脉冲学习的环境声音识别方法技术

技术编号:20847118 阅读:24 留言:0更新日期:2019-04-13 09:13
本发明专利技术公开一种基于关键点编码和多脉冲学习的环境声音识别方法,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类。本发明专利技术提出了一种基于稀疏关键点编码结合脉冲神经网络的方法,利用离散的脉冲进行声音的识别。为了充分利用整个时间窗内的有效信息,本发明专利技术采用多脉冲输出的学习算法,使用特定区间的脉冲数来引导神经元学习。

【技术实现步骤摘要】
基于关键点编码和多脉冲学习的环境声音识别方法
本专利技术属于新一代信息技术中的类脑计算、声音识别
,尤其是涉及一种基于关键点编码和多脉冲学习的环境声音识别方法。
技术介绍
环境声音识别是个人从周围环境中快速掌握有用信息的重要能力,其成功识别可以在潜在危险发生之前迅速采取行动,以避免突发事件产生。鉴于其重要性,越来越多的研究者开始关注鲁棒的环境声音识别任务。与语音或音乐识别等任务类似,声音识别旨在从环境中自动识别特定声音。不同的是,声音信号是非结构的,而且环境声音中往往伴随着背景噪声,如何在真实的噪声环境下准确地识别一个突发声音是一个具有挑战性的任务。模式识别任务的一般方法可以用于声音识别,主要分为信号预处理、特征提取和分类器分类三个部分。传统的声音识别方法,例如基于帧的梅尔频率倒谱系数(MFCC)作为特征提取器,隐马尔科夫模型(HMM)作为分类器的方法,这种方法很容易受到噪声的干扰,在噪声增加时识别性能会迅速下降。为了提高声音识别的鲁棒性,又有研究者提出了更加复杂的特征提取方法(例如语谱图图像特征spectrogramimagefeatures和匹配追踪matchingpursuit方法)结合比较先进的机器学习方法(例如深度神经网络deepneuralnetwork(DNN)和卷积神经网络convolutionalneuralnetwork(CNN))。然而以上方法的生物置信度比较低,和人脑的信息处理方式相差甚远。
技术实现思路
为了解决以上问题,本专利技术提出了一种更加接近于生物神经系统处理方式的方法,利用离散的脉冲进行信息传递与学习。以前的方法采用Tempotron学习算法,在鲁棒性的声音识别任务中取得了比较出色的识别率。但是,Tempotron学习算法仅仅通过整合利用有限的局部时空信息,来通过发放脉冲或保持静默这两种状态输出二值决策,并不能有效充分利用脉冲神经元的时间信息维度。生物神经元往往是在时间维度上连续不断地接受信息并发放脉冲信号。一旦神经元达到发放条件,其就会输出一个脉冲,因而神经元展现出多脉冲发放的状态。为了充分利用脉冲神经网络中的时间信息,本专利技术提出了一种基于关键点编码和多脉冲学习的环境声音识别方法。本专利技术提出一种基于关键点编码和多脉冲学习的环境声音识别方法,技术方案是通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类。为了应用脉冲神经网络进行环境声音识别,声音编码和脉冲学习算法是两个主要需要解决的问题。具体的技术方案如下:步骤一,音频数据预处理。首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化,得到归一化的能量语谱图S(t,f),之后通过log(S(t,f)+∈)-log(∈)(∈表示调控基准参数)计算对数能量语谱图,最后将对数能量语谱图进行归一化,用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图。步骤二,稀疏关键点编码:对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点,关键点通过以下公式(1)表示:其中,dt和df分别表示时域和频域的局部区域大小。为了得到稀疏的关键点编码,本专利技术利用了两种掩码机制:基于相对值的掩码方法和基于绝对值的掩码方法。1)基于相对值的掩码机制:本专利技术将每个关键点和其对应局部区域的平均能量值做对比,如果P(t,f)*βr<mean(S(t±dt,f±df)),则此关键点被视为背景噪声删除掉。2)基于绝对值的掩码机制:如果P(t,f)<βa,则该关键点被视为不重要的信息删除掉。其中βr和βa是两个超参数,通过对其数值的不同设定可调控编码的稀疏程度。将通过两种掩码机制之后得到的关键点信息做映射处理,得到稀疏的时空脉冲图,完成稀疏关键点编码。步骤三,多脉冲学习算法:基于包括Tempotron学习算法在内的当前一些学习算法的不足,本专利技术充分利用脉冲神经网络的时间处理优势,设计多脉冲学习算法,充分结合整个时间窗内的有效信息,通过神经元发放脉冲的数量对环境声音做出鲁棒性决策。1)神经元模型本专利技术采用简单易处理的基于电流的泄露整合激活神经元模型(leakyintegrate-and-fireneuronmodel)。在神经元模型中,每当有输出脉冲产生,神经元都会发生相应的复位动态响应。神经元的膜电位V(t)是通过整合来自N个传入神经元的突触电流得到的:其中,是到达突触i的第j个脉冲时间,代表第j个输出脉冲的时间,θ表示神经元激活阈值。每一个传入脉冲都对突触后电位做出贡献,其峰值振幅和形状分别由突触权重wi和归一化核函数K决定。核函数K定义为:在这里,τm表示膜电位的时间常数,τs表示突触电流的时间常数。V0是一个常数因子。神经元以事件驱动的方式连续整合输入脉冲。当没有输入脉冲的时候,神经元的膜电位会逐渐衰减至静息电位。当膜电位超过阈值的时候就会发放输出脉冲,膜电位再根据公式(2)的最后一部分复位。2)学习规则神经元输出脉冲的数量与其阈值之间的关系由脉冲阈值表面spike-threshold-surface(STS)表征。因此可以导出学习规则以修改突触权重,使得新的STS可以得到期望数量的脉冲。本专利技术采用TDP1(阈值驱动可塑性学习算法)作为多脉冲学习规则,临界阈值相对于权重wi的梯度表示为:其中,m表示在临界阈值的时间t*出现之前输出脉冲的数量。定义目标输出脉冲个数为d,实际输出脉冲个数为o,通过在每一个错误步骤之后根据单个临界阈值改变权重来训练的原则,相对学习规则如下:η>0为学习率来控制每次更新的步长。如果神经元激活脉冲的个数少于目标个数,则增加输出脉冲的个数,否则减少输出脉冲的个数。有益效果针对传统声音识别的方法缺乏生物可塑性的问题,提出了一种基于稀疏关键点编码结合脉冲神经网络的方法,利用离散的脉冲进行声音的识别。为了充分利用整个时间窗内的有效信息,本专利技术采用多脉冲输出的学习算法,使用特定区间的脉冲数来引导神经元学习。本专利技术仿脑信息处理机制提出了一个基于脉冲神经网络的鲁棒环境声音识别系统。该系统简化了关键点编码方法,使得编码更加高效、简便、稀疏,充分利用了脉冲神经网络的时域信息处理优势,采用了多脉冲学习算法,该方法提高了环境声音识别的鲁棒性。附图说明图1是本专利技术提出的基于稀疏关键点编码和脉冲神经网络的系统框架图;(a)为信息处理流程框图;(b)-(e)为各部分信息处理示例图;(b)和(c)分别对应语谱图信息;(d)为脉冲编码图;(e)为脉冲神经元动态响应图。图2是本系统分别在干净(a-d)和信噪比为0dB的背景噪声(e-h)下演示神经元对不同声音样本(所示三种:buzzer,horn和ring声音示例)的响应图:(a)和(e)为音频图;(b)和(f)为相应的时频语谱图;(c)和(g)为神经元在单脉冲学习算法训练下的识别示例图;(d)和(h)为神经元在多脉冲学习算法训练下的识别示例图,即本专利技术所提出的方法。具体实施方式下面结合附图及具体实验对本专利技术做进一步详细地描述。如图1所示,本专利技术所涉及的基于稀疏关键点编码和脉冲神经网络的系统框架图,主要包含以下步骤:步骤一,RWCP数据库预处理:从RWCP数据库中选取1本文档来自技高网...

【技术保护点】
1.基于关键点编码和多脉冲学习的环境声音识别方法,其特征在于,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,其使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类,具体的步骤如下:步骤一,音频数据预处理:首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化,得到归一化的能量语谱图S(t,f),之后通过log(S(t,f)+∈)‑log(∈)(∈表示调控基准参数)计算对数能量语谱图,最后将对数能量语谱图进行归一化,用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图;步骤二,稀疏关键点编码:(1)对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点,关键点通过以下公式(1)表示:

【技术特征摘要】
1.基于关键点编码和多脉冲学习的环境声音识别方法,其特征在于,通过仿脑的信息处理机制来完成环境声音的动态、高效、鲁棒识别,其使用RWCP数据库作为处理对象,整个系统包括以下三个部分:数据预处理、特征提取和分类器分类,具体的步骤如下:步骤一,音频数据预处理:首先将环境声音信号进行分帧、加窗、短时傅里叶变换、归一化,得到归一化的能量语谱图S(t,f),之后通过log(S(t,f)+∈)-log(∈)(∈表示调控基准参数)计算对数能量语谱图,最后将对数能量语谱图进行归一化,用S(t,f)来表示音频数据预处理得到的归一化的对数能量语谱图;步骤二,稀疏关键点编码:(1)对预处理得到的语谱图S(t,f)的局部时域和频域分别提取关键点,关键点通过以下公式(1)表示:其中,dt和df分别表示时域和频域的局部区域大小;(2)利用基于相对值的掩码方法和基于绝对值的掩码方法,得到稀疏的关键点编码:通过两种掩码机制之后得到的关键点信息做映射处理,得到稀疏的时空脉冲图,完成稀疏关键点编码;步骤三,多脉冲学习算法:利用脉冲神经网络的时间处理优势,设计多脉冲学习算法,充分结合整个时间窗内的有效信息,通过神经元发放脉冲的数量对环境声音做出鲁棒性决策。2.根据权利要求1所述的基于关键点编码和多脉冲学习的环境声音识别方法,其特征在于,所述步骤二中基于相对值的掩码机制,将每个关键点和其对应局部区域的平均能量值做对比,如果P(t,f)*βr<mean(S(t±dt,f±df)),则此关键点被视为背景噪声删除掉;基于绝对值的掩码机制:如果P(t,f)<β...

【专利技术属性】
技术研发人员:于强姚艳丽王龙标党建武
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1