一种基于局部纹理特征的音频场景识别方法及系统技术方案

技术编号:24689960 阅读:46 留言:0更新日期:2020-06-27 09:49
本发明专利技术公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明专利技术的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。

An audio scene recognition method and system based on local texture features

【技术实现步骤摘要】
一种基于局部纹理特征的音频场景识别方法及系统
本专利技术涉及音频场景识别领域,更具体地说,本专利技术涉及一种基于局部纹理特征的音频场景识别方法及系统。
技术介绍
场景自动感知是新生代智能化设备的迫切需求,它使得硬件设备能够利用有关场景的先验知识,调整工作模式,达到最佳工作状态。它目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。音频场景识别则是通过识别场景产生的声学内容,判断感知主体所处的环境,并对特定的音频场景进行标注(参考文献[1]:BregmanA..Auditorysceneanalysis:theperpetualorganizationofsound.MITPress,1990.参考文献[2]:BarchiesiD.,GiannoulisD.,StowellD.,PlumbleyM.D..Acousticsceneclassification:classifyingenvironmentsfromthesoundstheyproduce.IEEESignalProcessingMagazine,2015,32(3):16-本文档来自技高网...

【技术保护点】
1.一种基于局部纹理特征的音频场景识别方法,所述方法包括:/n将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。/n

【技术特征摘要】
1.一种基于局部纹理特征的音频场景识别方法,所述方法包括:
将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。


2.根据权利要求1所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述预先训练得到的时延深度神经网络模型的训练步骤包括:对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后作为输入特征,结合已知的场景标签对时延深度神经网络模型进行训练和测试;得到训练好的时延深度神经网络模型。


3.根据权利要求2所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述训练步骤具体包括:
步骤1-1)对训练数据集的每个音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤1-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤1-3)将Mel-fbank特征和LTP特征进行融合,并对融合后的特征进行全局均值方差归一化,得到用于模型训练的输入特征;
步骤1-4)构建用于音频场景识别的时延深度神经网络模型,该模型将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息;
步骤1-5)将步骤1-3)得到的输入特征输入步骤1-4)构建的TDNN模型,以交叉熵为训练准则,并利用随机梯度下降法进行反向传播训练,反复迭代得到TDNN模型;
步骤1-6)利用测试数据对TDNN模型进行测试,测试通过后得到训练好的TDNN模型。


4.根据权利要求3所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述步骤1-2)具体包括:
步骤1-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc;
步骤1-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:



其中,



其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤1-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:






LTP={LTPP,R,+(r),L...

【专利技术属性】
技术研发人员:白海钏葛凤培张鹏远高圣翔黄远沈亮林格平
申请(专利权)人:中国科学院声学研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1